7月最新大模型排名 📅 2026/7/6 2:39:55 本次排名覆盖Artificial Analysis 智能指数硬核技术能力客观评测与LMArena 文本生成模型榜用户真实偏好主观评测两大权威榜单核心信息如下注LMArena 起源于加州大学伯克利分校现由Arena Intelligence Inc.运营排名仅供参考综合排名Artificial Analysis智能指数 与 LMArena文本生成模型榜AA Intelligence IndexLMArena Text Generation维度AA 智能指数榜 v4.0LMArena 文本生成榜数据更新时间2026 年 07 月 5 日2026 年 07 月 1 日评测模型数量237 款369 款核心评测逻辑标准化自动基准测试综合 10 项权威评测维度客观衡量模型数学、科学、编程、推理、智能体任务等硬核技术能力避免单维度过拟合全球最大众包盲测平台基于用户匿名 A/B 对话投票通过 Elo 评分体系衡量真实对话场景下的用户偏好覆盖编程、创意写作、知识问答等高频场景AA 智能指数榜排名核心结论1、Anthropic全面领跑Claude Fable 5以60分登顶成为首个突破60分的模型包揽前5名中4席Fable 5、Opus 4.8/4.7、Sonnet 5。关键优势任务规划严谨性、错误自检率提升37%幻觉率28.1%显著低于GPT-5.542.3%。2、OpenAI遭遇可靠性短板GPT-5.5系列虽包揽第3/6/8名但高幻觉率拖累知识密集型任务如法律/科学推理性价比低于Anthropic成本高2.8倍。3、国产模型突破全球前十智谱GLM-5.2以51分位列第7国产第一企业级运维场景表现突出通义Qwen3.7 Max以46分居第11Terminal-Bench终端操作得分69.7接近国际顶尖水平。4、谷歌Gemini未达预期Gemini 3.1 Pro仅列第1046分数学推理36.9%与网络安全能力落后性价比优势难掩性能代差。LMArena文本生成模型榜国产模型亮点1、头部格局Anthropic微弱优势领跑Claude Fable 5以1,509分险胜前5名中占4席Opus 4.6/4.7等核心优势在于复杂任务中的逻辑严谨性与低幻觉率但领先幅度极小与第2名仅差5分。OpenAI未进前5GPT-5.5 (high) 以1,481分排第10高幻觉率拖累用户体验尤其在知识密集型对话中表现不稳定。2、国产模型表现通义千问Qwen3.7-Max-Preview国产第一第15名1,475分中文长文本处理与工具调用稳定性突出但国际排名与头部差距约30分。智谱GLM-5.2位列第261,469分开源协议MIT适配企业私有化需求中文表达自然度获用户认可但多模态能力弱于国际头部。代码排名LMArena Coding Arena大模型代码编程能力排行榜榜单基础信息数据时间2026 年 07 月 1 日评测规模共 364 款 AI 模型评测机制匿名盲测 真实用户投票采用 Elo 评分Bradley-Terry 模型覆盖代码生成、Bug 修复、算法实现、代码解释等真实编程场景比 SWE-bench 等静态基准更贴合实际开发、不易 “刷榜”头部格局Anthropic绝对统治1、Claude系列垄断头部Claude Fable 5以1563分登顶前9名中占据8席Opus 4.7/4.6等变体核心优势在于链式思考Thinking模式开启该模式的模型如Opus 4.7 Thinking普遍比标准版高3-6分。关键能力任务规划严谨性与幻觉率控制显著优于竞品。2、OpenAI未进前十GPT-5.5 (high) 仅排第19名1518分高幻觉率拖累用户体验尤其在复杂推理任务中频繁出现“自信错误”。GPT-5.4 (high) 以1521分位列第15表现优于最新版反映用户更倾向稳定版本而非激进迭代。