第10章:多模态输入入门

📅 2026/6/18 5:34:22
第10章:多模态输入入门
1. 项目背景某电商平台的商品审核团队每天要审核3000张商品主图,检查图片中是否包含违禁信息(虚假宣传语、侵权Logo、违规水印等)。目前依赖人工审核,每张图平均耗时15秒,三个审核员全天候轮班,月成本超过4万元。技术团队提出了自动化方案:先用OCR提取图片中的文字,再用规则引擎匹配违禁词——但遇到两个致命问题:第一,艺术字、手写体、倾斜文字OCR准确率不足60%;第二,违禁信息的判断依赖上下文——比如图片中出现"买一送三"文字,在促销图上是正常的,但在药品图上就违规了。纯OCR+规则的方案无法处理这种语义理解。视觉语言模型(VLM)如Qwen2.5-VL、LLaVA、InternVL等可以同时理解图片和文本——直接输入商品图片+“这张商品图是否包含违禁信息?”,模型可以结合视觉理解和语义推理给出综合判断。痛点:单模态系统(纯文本/纯视觉)只能处理一种信号,但现实世界的多数业务场景是多信号的。传统架构需要串联OCR→文本理解→规则引擎三个组件,任一组件的误差都会被下游放大。多模态模型用统一的Transformer同时处理图文,端到端地理解场景语义,避免了组件串联的误差累积。vLLM对多模态模型的支持已覆盖主流的VLM架构。本章将以商品图审核为场景,部署一个视觉语言模型,实现图片问答API,并测试不同图片大小、并发数对首Token延迟的影响。2. 项目设计(场景:审核组的工位旁,三个审核员正盯着屏幕快速标记图片。小胖路过,被叫住。)审核员老王:“小胖,你