VLM (4):connector

📅 2026/6/16 12:26:05
VLM (4):connector
文章目录前言1 connector 分类1.1 功能上只对齐维度1.2 压缩token 数量: token compression(token resampling)1.3 LLM 内部注入1.4 多维度融合2 connector 和 vlm2.1 linear/MLP2.1.1 典型文章2.1.2 典型结构2.1.3 LLaVA2.1.4 PaliGemma (pi0 base model 的 主要结构)2.1.5 Prismatic VLMs (openvla base model 的主要结构)2.2 Q-former2.2.1 Q-former 结构2.3 percevier adapter2.4 Cross-attention adapter2.5 multi-view / multi-frame fusion2.5.1 temporal pixel shuffle MLP2.5.2 Spatial-Temporal Positional MLP3 优缺点前言我们在看大模型时 ,会有很多结构很困扰比如: projector, MLP, connector, Q-former等等. 这里对其进行总结.1 connector 分类按照一般论文的常见程度,和论文中描述的重要程度,我们给connector 排个排名:第一优先级MLP Projector:最常见, 最简单,且最有效果Q-Former: BLIP-2 的核心贡献Perceiver Resampler: Flamingo 的 核心贡献Cross-Attention Adapter: Flamingo style VLM 的 核心结构Multi-Encoder FusionCLIP SigLIP DINO, Prismatic, OpenVLAmulti-view / multi-frame fusion:第二优先级Token Pruning : 推理加速, 部署优化, 代表论文: FastVToken Merging: ViT 加速常见, 代表论文: oken Merging: Your ViT But FasterPooling Resampler: 工程落地使用多一些第三优先级(用到再查我觉得都来得及)TokenLearner更复杂的动态 token routing / adaptive compression我当时看论文的时候看到很多模型很核心的是 connector的修改和改进, 有点乱, 现在做如下归纳1.1 功能上只对齐维度名称结构代表模型linear projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden statesMLP projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states1.2 压缩token 数量: token compression(token resampling)名称结构数据流Pooling Resampleraverage pooling24 × 24 visual tokens→2 × 2 pooling→12 × 12 visual tokensQ-Former(会有3种模式,这里简单说下)query tokens→Self-Attention→Cross-Attention to image features→FFN / MLP→updated query tokensPerceiver Resamplervisual features Xlearnable latents Z→Cross-Attention→updated latents→FFN / MLP→updated latents1.3 LLM 内部注入名称结构数据流gatedCross-attention adapter因为 attention 的 Query 和 Key/Value 来自不同来源。他的流程可以这样:Image / Video→Vision Encoder→Perceiver Resampler/ visual tokenizer→visual tokens→Cross-attention adapter→LLM→answer1.4 多维度融合名称结构数据流multi-view / multi-frame fusion2 connector 和 vlm2.1 linear/MLP2.1.1 典型文章(1)LLaVA(2023) 首创:把 CLIP visual tokens 通过 projector 接入 Vicuna开创开源 visual instruction tuning 路线.(2)LLaVA-1.5(2023/2024) :证明 MLP connector 更好视觉 encoder 数据配方就能非常强(3)PaliGemma(2024)SigLIP Gemma linear adapter形成轻量开放 VLM transfer 路线(4)Prismatic VLMs / OpenVLA(2024)把这种简洁 connector 思路进一步系统化并影响 VLA2.1.2 典型结构linear 就是 nn.linear, MLP 到处都是, 结构如下,就不赘述projectornn.Sequential(nn.Linear(vision_dim,llm_hidden_dim),nn.GELU(),nn.Linear(llm_hidden_dim,llm_hidden_dim),)2.1.3 LLaVALLaVA 有一个重要的贡献:MLP Projector 被证明“简单但非常强”这篇的业内贡献非常大因为它改变了很多人的判断。在 BLIP-2 / Flamingo 之后很多人会觉得 connector 必须复杂比如Q-Former, Perceiver Resampler, Cross-Attention Adapter论文摘要明确说 LLaVA-1.5 通过简单修改 LLaVA(projector 从 linear 改为 MLP)使用 CLIP-ViT-L-336px with an MLP projection再加入 academic-task-oriented VQA data 和简单 response formatting prompts就能在 11 个 benchmarks 上建立更强 baseline最终 13B checkpoint 只用 1.2M publicly available data在单个 8-A100 node 上约 1 天完成训练。所以可以见到 MLP 有这样的优点:比 Linear 更强比 Q-Former / Perceiver 更简单训练和复现成本低工程稳定2.1.4 PaliGemma (pi0 base model 的 主要结构)PaliGemma 的贡献点在于:用 SigLIP-So400m vision encoder 和 Gemma-2B language model 的 open VLM , 轻量级(3B) 也可以作为 强 transfer base model。继续验证了 simple projection / adapter 结构在开放 VLM 中的有效性。2.1.5 Prismatic VLMs (openvla base model 的主要结构)在完全相同的训练数据和参数规模下Prism 模型的性能严格超越了当时大火的 LLaVA v1.5 和 InstructBLIP成为了当时开源 VLM 的新标杆State-of-the-art。虽然这篇论文没有直接说名MLP project 怎么设计, 但这篇论文额提出了project 如何参与训练,并且做了详细的实验.经验一:LLaVA的做法是2stage:Stage 1: freeze vision encoder freeze LLM只训练 projectorStage 2: freeze vision encoder训练 projector LLM其实直接训练 projector LLM 就够了。经验二:不要轻易 finetune vision backboneVision Encoder: freezeProjector: trainLLM: train / finetune经验三:dinov2 SigLIP 是非常强的组合在prismatic 论文中作者没有画出如何连接的结构图,但是我读完openvla 后发现 openvla 并没有结构创新,只是打通了vision language action 的通路, 且 openvla是完全继承 prismatic 的工作,因此可以借鉴从 LLaVA 之后, MLP作为connector 已经最常用最方便且性能可以的connector, 下面就属于知晓性的结构, 也许某一天能解决我们遇到的问题2.2 Q-formerQ-Former 是 BLIP-2 提出的一个轻量 Querying Transformer用少量 learnable query tokens 从frozen image encoder 的大量视觉特征中抽取与文本最相关的信息再接给frozen LLM。LLaVA-style projector 的思路是:直接把所有 image tokens 投影到 LLM hidden spaceQ-Former 的思路是不要直接把所有 image tokens 都给 LLM。先用一组 learnable queries 去图像特征里“问问题”抽出少量更有用的 visual tokens。2者差异:比 MLP projector 多了一个能力知道要看图像中的什么内容2.2.1 Q-former 结构所以Q-Former 有三个 token:(1)来自图像的 image token, 比如: 来自图像 encoder例如 CLIP / ViT(2)来自文本的 texttoken, 比如:来自真实文本例如 caption / question / instruction(3)来自自己的 Query token,来自模型内部的可学习参数当有 text token 不代表 text token 一定会更新 query token。它是否影响 query取决于 attention mask。Qformer 非常复杂:ITC 流程 (Image-Text Contrastive Learning图文对比学习) 用的 Mask 机制解耦掩码 Decoupled MaskITM 流程 (Image-Text Matching图文匹配) 用的 Mask 机制双向掩码 Bi-directional MaskITG 流程 (Image-Text Generation图生文/文本生成) Mask 机制因果掩码 Causal Mask2.3 percevier adapter就是Qformer 不带文本 纯做视觉.2.4 Cross-attention adapter前面我们讲的所有方法MLP、Q-Former、Perceiver不管怎样变化最后都是把视觉向量拼在文本大模型的输入端Prompt 头部业内叫做In-context Layering。而 Cross-Attention Adapter 不改动大模型的输入大模型输入端只有纯文本而是直接在大模型LLM内部的每一个 Transformer 层Layer里面硬插一个交叉注意力模块。2.5 multi-view / multi-frame fusion在处理多视角Multi-view如机器人的主相机 腕部相机和多帧Multi-frame如连续的视频帧时, 负责多维度融合的 Connector连接器/适配器 是必要的.2.5.1 temporal pixel shuffle MLP在 SmolVLM (2025/2026)、Qwen2-VL (Alibaba, 2024) 见到过该结构. 视频T TT帧或多视角V VV叠加时如果不做下采样视觉 Token 数量会呈线性爆炸。如果直接用 Pooling又会严重丢失物体的空间网格和运动细节. 所以有了该结构.2.5.2 Spatial-Temporal Positional MLPOpenVLA (Stanford, 2024)、Prismatic VLMs (2024/2025) 及其 3D 具身智能扩展变体常见. 解决了MLP 本身是不具备任何时空位置概念的它是无序的。如果多个相机或多帧连续压扁成一条线塞进 LLMLLM 可能会把“左相机第 1 帧的狗”和“右相机第 3 帧的狗”混淆无法做空间 3D 建模。3 优缺点这里 只讨论: linear/MLP, 他的优点 1把 VLM 架构极大简化在 LLaVA 之前很多强 VLM 倾向于复杂结构Q-Former/Perceiver Resampler/Cross-attention blocks/encoder-decoder fusion而 Linear / MLP projector 路线证明强 vision encoder 简单 projector 强 LLM, 就可以得到非常强的多模态模型。这直接降低了 VLM 研究门槛。优点 2可以低成本复现和扩展LLaVA-1.5 证明MLP connector 加合适数据和训练配方在单个 8-A100 node 上大约一天就能完成 13B checkpoint 的完整训练并在 11 个 benchmark 上达到强 baseline。这很关键这样可以模块化做控制变量实验:换 vision encoder换 LLM换 projector换数据做领域微调做医学/遥感/文档/机器人扩展缺点:不压缩 tokenimage tokens 有多少通常就传多少给 LLM。不主动筛选视觉信息它不像 Q-Former / Perceiver 那样有 learnable query 去抽取。对高分辨率、多图、视频、多相机场景压力大visual tokens 很容易爆。空间细节可能不足CLIP/SigLIP 更偏语义对齐未必保留足够几何/局部信息。幻觉和 grounding 问题仍然明显简单 projector 不保证 LLM 真的精确绑定每个视觉区域。现在业界尤其是主流的开源和商用大模型绝大多数都在用 MLP多层感知机或者单纯的线性层Linear Layer。其余略,用到再看.