告别$O(N^2)$!LinMU让多模态大模型实现线性复杂度,推理提速9倍

📅 2026/6/26 3:54:05
告别$O(N^2)$!LinMU让多模态大模型实现线性复杂度,推理提速9倍
当前最先进的多模态大模型VLMs虽然在理解图像和视频方面表现惊人但它们都有一个共同的“阿喀琉斯之踵”基于Transformer的自注意力机制带来的二次方计算复杂度O(N2)O(N^2)O(N2)。这意味着随着输入视频变长或图像分辨率变高计算成本会呈爆炸式增长。ArXiv URLhttp://arxiv.org/abs/2601.01322v1普林斯顿大学的研究团队近日提出了一种名为LinMU的全新架构试图打破这一瓶颈。LinMU 成功将多模态理解的复杂度降低到了线性水平O(N)O(N)O(N)在保持与顶级教师模型如 NVILA-8B, Qwen2.5-VL性能相当的同时将长视频的推理吞吐量提升了最高 9 倍。核心设计M-MATE 模块LinMU 的核心思想非常直接彻底移除 VLM 中昂贵的自注意力层取而代之的是一种名为**M-MATE**的线性复杂度模块。单纯使用线性模型如 Mamba处理视觉任务往往会遇到“邻接性丢失”的问题即图像被展平为序列后空间上相邻的像素在序列中可能相隔甚远。为了解决这个问题LinMU 设计了巧妙的双分支结构Flex-MA 分支全局上下文基于双向的**Mamba2**模型。利用状态空间模型SSM的线性特性来捕捉长距离的依赖关系和全局上下文。它就像模型的“望远镜”负责看清整体轮廓。Local-Swin 分支局部细节采用固定窗口大小的**3D Swin Attention**。它只关注局部的时空相关性计算量是线性的。它就像模型的“显微镜”负责捕捉相邻像素间的精细关联。通过这种“全局线性混合 局部精确注意”的组合LinMU 既享受了 Mamba 的高效率又保留了 Attention 在处理局部视觉特征时的优势。三阶段蒸馏从 Attention 到 Linear 的平滑过渡如何将一个训练好的、基于 Attention 的强大 VLM 转换为线性的 LinMU 架构直接从头训练成本太高且容易掉点。研究团队提出了一套精密的三阶段蒸馏框架权重复用初始化首先利用教师模型Teacher的 Attention 权重来初始化学生模型Student的 M-MATE 分支不让模型“白手起家”。阶段一冻结其他部分仅训练Flex-MA 分支。让 Mamba 先学会模仿 Attention 的全局注意力模式。阶段二解冻Local-Swin 分支与 Flex-MA 联合训练。此时模型开始补全局部细节的建模能力。阶段三通过**LoRA**微调其余的骨干网络层。这一步是为了让整个模型适应新的线性模块进一步对齐教师模型的隐藏状态和输出分布。性能与效率的完美平衡LinMU 的表现如何实验结果令人印象深刻。在 MMMU、TextVQA、LongVideoBench 和 Video-MME 等多个主流基准测试中LinMU 的性能几乎与它的教师模型NVILA-8B-Video 和 Qwen2.5-VL-7B持平。这证明了线性注意力机制完全有能力处理复杂的多模态推理任务。但在效率方面LinMU 展现出了巨大的优势首字生成时间TTFT缩短了最多2.7倍。Token 吞吐量在处理分钟级长视频时吞吐量提升了惊人的9.0倍。下图展示了随着输入序列长度增加LinMU 相比传统 VLM 在延迟和吞吐量上的巨大优势总结LinMU 的出现证明了在多模态领域“高性能”与“线性复杂度”并非不可兼得。通过 M-MATE 模块和精心设计的蒸馏策略我们可以在不牺牲理解能力的前提下大幅降低计算门槛。这为未来在边缘设备上部署能够理解长电影、高分辨图像的超长上下文 VLM 打开了大门。