简介
InternVL 是由上海人工智能实验室(Shanghai AI Laboratory)及其合作伙伴开发的开源多模态大语言模型(MLLM)系列,旨在缩小开源模型与商业模型(如 GPT-4V、Gemini 等)在多模态理解能力上的差距。InternVL 系列模型在视觉、语言和多模态任务中表现出色,尤其在处理高分辨率图像、多语言支持和复杂场景理解方面具有显著优势。
InternVL 的核心特点
InternVL 系列模型的核心特点包括:
-
强大的视觉编码器:InternVL 采用 InternViT-6B 作为视觉编码器,参数规模达 60 亿,能够处理复杂的视觉输入,并在纯视觉任务(如图像分类、语义分割)和图生文任务中表现优异,逼近甚至超过谷歌的闭源模型 ViT-22B。
-
动态高分辨率处理:InternVL 支持动态高分辨率输入,能够根据图像的长宽比和分辨率将图像分割为 448×448 像素的图块,最高支持 4K 分辨率输入。这种方法避免了传统 resize 操作导致的图像失真和细节丢失。
-
双语数据集支持:InternVL 通过高质量的中英双语数据集训练,显著提升了在 OCR 和中文相关任务中的表现。
-
多模态对齐技术:InternVL 首次提出了 对比-生成融合的渐进式对齐技术,实现了视觉大模型与语言大模型在互联网规模数据上的精细对齐,显著提升了多模态任务的处理能力。
-
开源与可扩展性:InternVL 系列模型完全开源,提供了从 1B 到 78B 不同规模的模型,适应不同的使用场景和硬件需求。
InternVL 的模型架构
InternVL 的架构基于 ViT-MLP-LLM 范式,具体包括以下组件:
-
视觉编码器(InternViT):InternVL 使用 InternViT-6B 作为视觉编码器,能够提取高分辨率的视觉特征。InternViT 通过动态高分辨率处理和像素洗牌(Pixel Shuffle)技术,减少了视觉 token 的数量,同时保留了图像的细节信息。
-
MLP 投影器:MLP 投影器用于将视觉特征与语言模型的特征空间对齐,确保多模态信息的有效融合。
-
语言模型(LLM):InternVL 支持多种语言模型底座,如 InternLM、Qwen 等,通过渐进式对齐策略实现视觉与语言的高效结合。
InternVL 的训练策略
InternVL 的训练过程分为多个阶段,以优化模型性能:
-
MLP 热身阶段:仅训练 MLP 投影器,视觉编码器和语言模型冻结,目的是快速对齐视觉和语言特征。
-
ViT 增量学习阶段:训练视觉编码器和 MLP,增强模型在特定领域(如多语言 OCR、数学图表)的表现。
-
全模型指令微调阶段:所有组件(视觉编码器、MLP、语言模型)参与训练,使用高质量的多模态指令数据集进行微调,确保模型在实际应用中的表现。
此外,InternVL 还引入了 随机 JPEG 压缩 和 损失重加权 等技术,增强模型对噪声图像的鲁棒性,并优化训练效率。
InternVL 的性能表现
InternVL 在多个多模态基准测试中表现优异:
-
OCR 和文档理解:在 DocVQA 和 TextVQA 任务中,InternVL 分别取得了 90.4% 和 80.5% 的准确率,显著超过其他模型。
-
多模态推理:在 MMMU 基准测试中,InternVL 2.5 是首个得分超过 70% 的开源模型,接近 GPT-4V 和 Claude-3.5-Sonnet 等商业模型。
-
数学和图表理解:在 MathVista 和 ChartQA 任务中,InternVL 展现了强大的数学推理和图表理解能力。
InternVL 的应用场景
InternVL 的广泛应用场景包括:
-
图像和视频分析:用于自动标注、分类和理解图像和视频内容,适用于安防监控、内容审核等领域。
-
视觉问答(VQA):在教育、电子商务和客户服务中,回答与图像或视频内容相关的问题。
-
文档理解和信息检索:在法律、医疗和学术研究中,提取文档中的关键信息。
-
多语言翻译和理解:支持多语言处理,适用于跨语言交流和国际商务。
InternVL 的技术创新
InternVL 的技术创新主要体现在以下几个方面:
-
动态高分辨率处理:通过动态切分图像为 448×448 像素的图块,支持高达 4K 分辨率的输入,显著提升了模型对高分辨率图像的处理能力。
-
像素洗牌技术:通过 Pixel Shuffle 操作,将视觉 token 数量减少到原来的四分之一,提高了模型的计算效率。
-
渐进式对齐策略:通过分阶段训练,逐步对齐视觉和语言模型,显著降低了训练成本并提升了模型性能。
相关文献参考
论文地址
国内模型下载地址
GitHub 仓库
HuggingFace 模型库
在线体验 Demo