告别$O(N^2)$！LinMU让多模态大模型实现线性复杂度，推理提速9倍

📅 2026/6/26 3:54:05

当前最先进的多模态大模型VLMs虽然在理解图像和视频方面表现惊人但它们都有一个共同的“阿喀琉斯之踵”基于Transformer的自注意力机制带来的二次方计算复杂度O(N2)O(N^2)O(N2)。这意味着随着输入视频变长或图像分辨率变高计算成本会呈爆炸式增长。ArXiv URLhttp://arxiv.org/abs/2601.01322v1普林斯顿大学的研究团队近日提出了一种名为LinMU的全新架构试图打破这一瓶颈。LinMU 成功将多模态理解的复杂度降低到了线性水平O(N)O(N)O(N)在保持与顶级教师模型如 NVILA-8B, Qwen2.5-VL性能相当的同时将长视频的推理吞吐量提升了最高 9 倍。核心设计M-MATE 模块LinMU 的核心思想非常直接彻底移除 VLM 中昂贵的自注意力层取而代之的是一种名为**M-MATE**的线性复杂度模块。单纯使用线性模型如 Mamba处理视觉任务往往会遇到“邻接性丢失”的问题即图像被展平为序列后空间上相邻的像素在序列中可能相隔甚远。为了解决这个问题LinMU 设计了巧妙的双分支结构Flex-MA 分支全局上下文基于双向的**Mamba2**模型。利用状态空间模型SSM的线性特性来捕捉长距离的依赖关系和全局上下文。它就像模型的“望远镜”负责看清整体轮廓。Local-Swin 分支局部细节采用固定窗口大小的**3D Swin Attention**。它只关注局部的时空相关性计算量是线性的。它就像模型的“显微镜”负责捕捉相邻像素间的精细关联。通过这种“全局线性混合局部精确注意”的组合LinMU 既享受了 Mamba 的高效率又保留了 Attention 在处理局部视觉特征时的优势。三阶段蒸馏从 Attention 到 Linear 的平滑过渡如何将一个训练好的、基于 Attention 的强大 VLM 转换为线性的 LinMU 架构直接从头训练成本太高且容易掉点。研究团队提出了一套精密的三阶段蒸馏框架权重复用初始化首先利用教师模型Teacher的 Attention 权重来初始化学生模型Student的 M-MATE 分支不让模型“白手起家”。阶段一冻结其他部分仅训练Flex-MA 分支。让 Mamba 先学会模仿 Attention 的全局注意力模式。阶段二解冻Local-Swin 分支与 Flex-MA 联合训练。此时模型开始补全局部细节的建模能力。阶段三通过**LoRA**微调其余的骨干网络层。这一步是为了让整个模型适应新的线性模块进一步对齐教师模型的隐藏状态和输出分布。性能与效率的完美平衡LinMU 的表现如何实验结果令人印象深刻。在 MMMU、TextVQA、LongVideoBench 和 Video-MME 等多个主流基准测试中LinMU 的性能几乎与它的教师模型NVILA-8B-Video 和 Qwen2.5-VL-7B持平。这证明了线性注意力机制完全有能力处理复杂的多模态推理任务。但在效率方面LinMU 展现出了巨大的优势首字生成时间TTFT缩短了最多2.7倍。Token 吞吐量在处理分钟级长视频时吞吐量提升了惊人的9.0倍。下图展示了随着输入序列长度增加LinMU 相比传统 VLM 在延迟和吞吐量上的巨大优势总结LinMU 的出现证明了在多模态领域“高性能”与“线性复杂度”并非不可兼得。通过 M-MATE 模块和精心设计的蒸馏策略我们可以在不牺牲理解能力的前提下大幅降低计算门槛。这为未来在边缘设备上部署能够理解长电影、高分辨图像的超长上下文 VLM 打开了大门。

新闻详情

相关阅读

网络资源获取难题的智能解决方案：res-downloader深度使用指南

2026年数据分析报告服务选哪家？归因能力与智能洞察全方位对比

PLC远程监控如何让机器学会“说话“

1. 字符缓冲流复制文本文件

如何绕过30+平台限制？终极免费文档下载指南

世界杯引入 AI 辅助判罚，裁判真的会“失业“吗？

嵌入式开发中的实时操作系统：任务调度与优先级反转

2026 X（原Twitter）新手指南：如何打造高权重账号并获得收入

分布式爬虫中的任务调度策略深度剖析

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

技术线上面试代码写完就以为通关？留学生利用黑盒测试自证风控「蒸汽教育分享」

暗黑2存档编辑器终极指南：5分钟快速掌握d2s-editor完整使用教程

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用