DeepSeek 补齐最后一块拼图:V4 Vision 视觉能力正式上线 📅 2026/6/20 7:00:43 来源Hacker News Best447 points, 181 comments· 综合评分 5.0/5.0一、最后一块拼图2026 年 6 月 18 日DeepSeek 正式为 V4-Pro 和 V4-Flash 上线了视觉能力。这消息在 Hacker News 上炸出了 447 个赞、181 条讨论。如果你关注过 DeepSeek 过去 18 个月的轨迹就知道这步棋意味着什么2024.12V3 发布671B MoE—— 证明了中国团队能做顶尖大模型2025.01R1 发布 —— 推理能力震撼全球引发美股最大单日市值蒸发2026.04.24V4-Pro/V4-Flash 发布1.6T/49B active MoE1M 上下文—— 性能全面对标 GPT-4o2026.04.29Vision 灰度测试开始2026.06.18Vision 正式上线DeepSeek 从纯文本模型变成了多模态模型。视觉能力是它最后一块没补齐的能力拼图。一年多前GPT-4o 已经能看、能听、能说。Gemini 原生就是多模态。Claude 3.5 也陆续上了视觉。DeepSeek 的 Vision 来得不算早但来得很猛。二、V4 架构速览 —— 1M 上下文是怎么做到的要理解 DeepSeek Vision 为什么厉害先要知道 V4 的架构基础。V4 是一个 1.6 万亿参数的 MoEMixture of Experts模型每次推理只激活 49B 参数。它有两个关键创新Multi-head Latent Attention (MLA)。传统 Transformer 的 KV cache 会随着上下文长度线性增长。V4 把 Key 和 Value 压缩到一个低维隐空间1M token 上下文的 KV cache 只有传统方案的 5-11%。这意味着你可以在单张 H800 上跑 1M token 的推理。Compressed Sparse Attention (CSA) 和 Heavy Compressed Attention (HCA)。这两个注意力变体进一步优化了长序列下的计算效率。CSA 做稀疏注意力模式选择HCA 做高压缩比的全局注意力。它们让 1M token 的「读文档」能力变得实用。Vision 就是在 V4 这个高效架构上长的眼睛。三、核心技术视觉原语Visual Primitives聊视觉模型就一定绕不开成本。一张图片在模型里占多少个 token直接决定了推理的贵贱。传统方案有多贵GPT-4o每张图压缩成 ~260 个 tokenGemini每张图 ~1100 个 token原生高清支持Claude 3.5/Opus 4每张图 ~870 个 tokenDeepSeek V4 Vision每张 800x800 图片只占 ~90 个 KV cache 条目也就是说一张图用 DeepSeek V4 Vision 处理成本只有 Claude Opus 的 1/170。怎么做到的秘密在于视觉原语Visual Primitives。传统多模态模型的做法是把图片切成 patch比如 16x16 像素一块每个 patch 用一个视觉 encoder通常是 ViT 或 SigLIP编码成一个 token。一张 800x800 的图要切成 2500 个 patch虽然经过压缩能降到 ~260 个 token但本质上还是把视觉信息「翻译」成自然语言的 token 空间。DeepSeek 换了个思路。它们不是把图「翻译」成文本 token而是将视觉信息直接编码为一种更紧凑的中间表示——视觉原语。这种表示天然就是压缩的。一张图的核心视觉信息经过压缩后只需要约 90 个 KV cache 条目就能表达。这意味着什么推理成本断崖式下降V4-Flash 定价 $0.14/M input处理一张图约 $0.000013。拿 Claude Opus 4.8$0.04/M - $0.12/M来算170 倍的成本差异延迟更低更少的 KV 条目意味着注意力计算更快长上下文场景友好1M token N 张图KV cache 不会爆炸当然这种激进压缩也有代价。DeepSeek Vision 在复杂多步视觉推理、极小细节识别上弱于 GPT-4o。但它的强项——OCR、文档提取、图表理解、截图分析——已经覆盖了 90% 的实用场景。四、竞争定位不止是便宜维度DeepSeek V4 VisionGPT-4oClaude Opus 4.8Gemini 2.5视觉定价$0.14/M input~$2.50/M input~$12/M input~$10/M input每张图成本~$0.000013~$0.00065~$0.0022~$0.0022图片KV占用~90 条目~260 token~870 token~1100 token开源MIT 许可❌❌❌可自托管✅❌❌❌强项OCR/文档/截图通用多模态复杂多步推理视频/音频1M上下文✅❌ (128K)❌ (200K)✅ (1M)看出来 DeepSeek 的策略了吗我不是来跟你比能力的我是来跟你比性价比的。准确度达到 GPT-4o 的 90-95%但价格是 1/10 到 1/170。这个性价比差距已经大到让产品决策者没法忽视了。还有两个差异化维度值得注意开源 MIT。这是 DeepSeek 最大的护城河。对数据主权敏感的行业金融、医疗、政务可以部署在自己的基础设施上。图片数据完全不离开自己的网络。这对于视觉场景尤为重要——很多公司不愿意把内部文档截图和产品界面截图发给 OpenAI。中国基础设施路径。大部分数据走 DeepSeek 的中国服务器。对国内开发者来说延迟更低、合规更简单。对海外企业来说则需要权衡数据主权。五、更大的棋价格战、开源闭环、多模态DeepSeek Vision 上线后中国 AI 多模态战场又挤进来一个玩家。通义千问、文心一言、讯飞星火都有视觉能力。但 DeepSeek 的打法不一样——它在同时推三件事。价格战。大模型价格过去一年降了 10-100 倍。V4-Flash 的 $0.14/M 把行业底线拉到了地板下面。Vision 没走高毛利路线——目的是占入口不是短期利润。开源闭环。V4 权重 MIT 许可。下下来就能用、能调、能重新打包。加上 Vision 后开发者一台机器就能跑全套视觉应用。GPT-4o 给不了这个。中国多模态的整体进步。一年前中国开源和闭源的差距还很明显。现在 V4 Vision 几个基准上已经能和 GPT-4o 掰手腕了。对国内市场来说一个 MIT 许可、性能接近 GPT-4o 的多模态模型意味着一堆新产品形态成为可能。不用再纠结「要不要花这个钱」。六、给开发者的建议如果你是开发者现在应该做什么第一试一下。DeepSeek 提供 OpenAI 兼容 API只需改 base_url 就能接入fromopenaiimportOpenAI clientOpenAI(base_urlhttps://api.deepseek.com/v1,api_keyyour-api-key)# 单图分析responseclient.chat.completions.create(modeldeepseek-v4-pro,messages[{role:user,content:[{type:text,text:这份图表显示什么趋势用中文回答},{type:image_url,image_url:{url:https://example.com/chart.png}}]}])print(response.choices[0].message.content)第二算一下账。如果业务涉及大量图片处理文档识别、截图分析、图表 OCR迁移到 V4 Vision 的成本节省可能是一个数量级。第三考虑自部署。如果数据安全敏感可以 Docker 部署 V4视觉数据全程不出本机。自部署还能避免 API token 过期、速率限制等问题。DeepSeek Vision 不是个惊喜——它就是按计划来的。从 V3 到 R1 到 V4 再到 Vision路线清楚执行稳定。视觉能力补齐后DeepSeek 的产品形态已经是个完整的平台了。接下来要看的是多步视觉推理能不能追上 GPT-4o。V4 的架构还有不少优化空间。中国团队这波追赶速度比大多数人预想的要快。参考来源DeepSeek 官方公告、Hacker News 讨论447 points、DeepSeek V4 技术报告