GLM - 5.2 与 Claude Opus 4.8 3D 游戏构建测试大比拼:开源与闭源差距几何?

📅 2026/6/23 9:34:59
GLM - 5.2 与 Claude Opus 4.8 3D 游戏构建测试大比拼:开源与闭源差距几何?
测试背景与参赛者科技媒体 Tech Stackups 发布了一篇在开发者社区引起广泛讨论的评测文章。测试方法是给两个大模型同样的 prompt要求它们从零构建一个完整的 3D 平台跳跃游戏原始 WebGL2 渲染、GLB 模型解析、骨骼动画、碰撞检测、摄像机跟随不借助任何游戏引擎或 Three.js 等第三方库。两个参赛者分别是 Anthropic 的 Claude Opus 4.8 和智谱刚刚发布的开源模型 GLM - 5.2。测试结果Opus 用 33 分钟交出了一个画面干净、可正常通关的作品GLM - 5.2 用了 71 分钟产出了一个能跑但角色缺纹理、陷阱不生效、通关条件不触发、调试信息留在屏幕上的半成品。不过核心不在于谁赢了而在于这场对比揭示的开源模型与闭源旗舰之间正在缩小的差距以及那道仍然存在的分界线。GLM - 5.2 模型介绍GLM - 5.2 是智谱于 2026 年 6 月发布的旗舰模型采用 MIT 开源许可证权重托管在 Hugging Face 和 ModelScope没有地域限制。它的核心卖点是三个数字100 万 token 上下文窗口、两档思考模式High 和 Max以及极具侵略性的定价 ---- 输入每百万 token 1.40 美元输出每百万 token 4.40 美元。相比之下Claude Opus 4.8 的价格是输入 5 美元、输出 25 美元GLM - 5.2 的输出成本不到 Opus 的五分之一。在本次测试中GLM - 5.2 的实际花费为 5.39 美元而 Opus 的估算花费约为 21.92 美元。测试的说服力这场 3D 游戏构建测试有说服力是因为它的任务设计覆盖了一个真实软件项目的完整复杂度GLB 二进制解析器、矩阵和四元数运算、GLSL 蒙皮着色器、固定时间步长游戏循环、AABB 碰撞检测、第三人称摄像机跟踪和键盘操控。两个模型各获得一次尝试机会没有提示词微调测试者使用了来自 Kenneys Platformer Kit 的相同 CC0 3D 资产。模型结构性差异结果揭示了两个模型之间的一个结构性差异这比基准分数的差距更值得关注。Opus 在运行过程中主动截取了渲染帧的截图通过视觉检查发现画面中残留了调试信息自行修正。GLM - 5.2 是纯文本模型没有视觉理解能力它通过脚本采样像素颜色值来判断渲染是否正确其内部报告写道“草绿色、泥土棕色、金币金色、旗帜红色、角色偏蓝、半 Lambert 光照、无黑色。”它从未“看到”角色的纹理丢失了也从未“看到”调试叠加层没有被移除。这个“自验证鸿沟” ---- 即模型能否通过视觉感知到自己的输出是否正确 ---- 在代码生成这类 Agentic 型任务中可能构成真正的分水岭。公开基准测试表现从公开基准测试的数据来看GLM - 5.2 和 Opus 4.8 各有胜负但整体格局清晰。在数学推理方面GLM - 5.2 在 AIME 2026 上以 99.2 分领先 Opus 的 95.7 分在 IMOAnswerBench 上以 91.0 对 83.5 大幅领先。但在编码基准上Opus 在 7 个测试中的 5 个取得明显优势SWE - bench Pro 69.2 对 62.1NL2Repo 69.7 对 48.9SWE - Marathon 26.0 对 13.0。其中 NL2Repo 的 20.8 分差距尤为显著该基准恰好测试的是“根据规格说明书构建完整可运行代码库”的能力与本次 3D 游戏构建测试的任务类型高度一致。在 Agentic 基准上Opus 同样保持领先MCP - Atlas 77.8 对 76.8差距微小Tool - Decathlon 59.9 对 48.2差距 11.7 分。独立评测机构 Artificial Analysis 在其 Intelligence Index v4.1 上将 GLM - 5.2 评为“领先的开源权重模型”综合评分为 51但同时指出 GLM - 5.2 是“最消耗 token 的开源模型” ---- 每次任务平均输出约 43000 个 token是前代 GLM - 5.1 的 1.65 倍。业界反应业界对 GLM - 5.2 的反应整体积极但意见不一。知名开发者 Simon Willison 称其为“可能是有史以来最强大的纯文本开源权重 LLM”他的 SVG 绘图测试鹈鹕骑自行车产出了完整动画效果但后续的负鼠骑滑板车测试相比 GLM - 5.1 出现了退化。Allen Institute for AI 的研究员 Nathan Lambert 从 LMArena 排名推断“你可以说他们有一个比 Gemini 更好的 Agent 模型”并特别强调中国实验室用远少于美国同行的算力实现了这些成果。Artificial Analysis 将其定位为“在其能力层级上最便宜的模型”但也指出 token 消耗是一个实际使用中不可忽视的缺点。具体行为差异如果进一步拆解这个测试中的具体行为差异会发现 GLM - 5.2 和 Opus 之间的差距并非均匀分布在所有维度上。GLM - 5.2 在那些可以通过“内部推理”独立解决的子任务上表现出色 ---- 编写 GLSL 着色器代码、实现四元数旋转、构建 AABB 碰撞检测逻辑。这些任务不需要看到运行结果只需要正确的数学推导和规范的代码输出。但在那些需要“与外部世界交互验证”的环节 ---- 检查渲染帧是否正确、发现角色纹理丢失、确认 UI 元素是否残留 ---- 纯文本模型的局限就暴露无遗。GLM - 5.2 采样了像素颜色值得出了“草绿土褐金红角色蓝”的结论从数值角度看不能说它错但它没能把“角色偏蓝”解读为“纹理映射失败”。这种差距不是推理能力的差距而是感知通道的差距。对开发者的启发这引出了一个对开发者而言非常实际的启发在选择模型时“有没有视觉输入”不应该被理解为“能不能看图”这一个功能点而应该理解为“能不能验证自己的工作成果”。在代码生成场景下一个缺少视觉能力的模型仍然可以写出正确的着色器代码但它无法通过截图发现渲染帧出了问题它可以生成 UI 布局但无法通过视觉检查确认按钮是否对齐。对于那些输出可以被自动化测试覆盖的任务 ---- 比如 API 后端开发、数据处理管道 ---- 纯文本模型足够胜任。但对于那些需要“看到结果才能判断对错”的任务 ---- 前端 UI、游戏开发、可视化 ---- 视觉自验证是一个硬需求而非可选功能。GLM - 5.2 开源策略另一个值得关注的维度是 GLM - 5.2 的开源策略本身。MIT 许可证意味着它不仅免费可用而且可以被微调、被内网部署、被嵌入到商业产品中而不需要任何授权费。这与 Anthropic、OpenAI 和 Google 提供的商业 API 形成了根本性的不同 ---- 后者不仅按 token 收费而且从法律和技术两个层面锁定了供应商关系。对于重视数据主权、不能将代码发送给第三方 API 的企业用户来说一个能用自己 GPU 跑起来、能力接近旗舰闭源模型的 MIT 模型其吸引力不仅仅是成本上的更是战略上的。智谱在这个时间点选择完全开源 GLM - 5.2本质上是在用“零许可费”换取开发者生态的分布和社区反馈 ---- 这与 Meta 的 Llama 策略如出一辙但在能力层级上更进一步。综合选择建议综合来看Tech Stackups 的这篇评测为开发者提供了一个实用的选择框架对于成本敏感、纯文本或纯逻辑的任务 ---- 批量代码生成、数学推理、文本分析 ---- GLM - 5.2 以五分之一的价格提供了接近甚至偶尔超越 Opus 的能力。对于需要视觉判断、输出打磨到可直接交付、或多步骤 Agent 协调的任务 ---- 比如构建一个完整的交互式应用 ---- Opus 目前仍然是更可靠的选择。但 GLM - 5.2 的 MIT 许可证意味着另一个关键优势它作为一个“总是可用的后备方案”没有供应商绑定、没有配额限制、没有定价变动风险。在开源权重模型的能力曲线以这种速度追赶闭源旗舰的背景下半年后的局面会怎样呢