linghun 国产自研AI编程终端 在真实本地开发环境中完整跑完Terminal-Bench 2.1 官方 89 题 获得73.03%通过率

📅 2026/6/16 16:43:01
linghun 国产自研AI编程终端 在真实本地开发环境中完整跑完Terminal-Bench 2.1 官方 89 题 获得73.03%通过率
按 Terminal-Bench 2.1 当前公开 leaderboard 分数横向对比这个单次分数约处在第 6 位但这不是官方 leaderboard 已收录排名。由于时间和成本关系我就没有进行5次完整的跑全。我觉得在真实开发环境中的得到的这个通过率比为了跑分而去优化更实际同样这也不是在企业级网关和专业实验室的跑分。结果项目数值Agent / SystemLinghunModelGPT-5.5DatasetTerminal-Bench 2.1 (terminal-bench/terminal-bench-2-1)范围官方 89 题每题 1 次分数65 / 89通过率73.03%Commitf09f1319RuntimeHarbor 0.13.2Endpoint profileresponsesInference levelHigh并发3Agent timeout multiplier2.0Verifier timeout multiplier1.0重要说明这次运行发生在真实本地开发环境中不是按照排行榜k5规则准备的正式提交跑分。Harbor 官方静态校验要求每题至少 5 次 trial、标准 timeout/resource 设置以及完整 passing-trial trajectory。因此这个单次结果应理解为真实环境工程压测而不是已被官方排行榜接受的排名成绩。有两个 trial 获得 passing reward但在 final 后 agent 进程没有自然退出为了让 batch runner 继续进行了手动恢复install-windows-3.11mailman最后的重任务曾检查 CPU / 资源竞争。它们是在真实计算不是 final 后挂住这些任务没有被手动取消。批次摘要BatchCompletedPassFailErrored11082021073131055041091151091161082171091081053299542失败分类分类数量Verifier failed18NonZeroAgentExitCodeError5RuntimeError2AgentTimeoutError1##这意味着什么linghun不是套壳终端也不是聊天终端而是具有企业级生产力的AI终端。在Terminal-Bench 2.1专门用于评估 ‌AI 智能体Agent在真实命令行终端环境中执行复杂任务能力‌的基准测试框架升级版中他也进入了第一梯队。不是靠我说linghun有多好有多强有实际的压测数据证明。也证明linghun在白皮书中的设计和实现都是基于现实落地的是基于底座互相咬合的成果。模型驱动底层底层去约束模型达到共建。那么对于开发者来说能有效抑制模型幻觉的时候这个生产力是恐怖的。提示词工程和loop工程终将都化为工程化工作。也代表国内开发者不是做不出cc或者codex的产品一样当然细节方面还需要更深的打磨我们能做出来反而某些场景比他们更贴合国内开发者环境和场景。当模型能工程化工作的时候越强的模型linghun和开发者吃到的红利越多。如何理解这个结果这次结果的价值在于它不是挑题也不是演示任务而是在真实本地环境中完整跑过 Terminal-Bench 2.1 官方 89 题覆盖了长任务、服务类任务、QEMU、ML、二进制、构建和多语言任务。它证明 Linghun 可以在真实开发环境里完成一次完整官方数据集压测同时也暴露出后续进入官方排行榜需要继续收敛的工程点支持干净的官方k5运行模式leaderboard 运行使用标准 timeout/resource 设置保留并上传完整 passing-trial trajectory继续收紧 final 后进程清理。项目地址和文档GitHubhttps://github.com/linghungegeg/Linghun中文白皮书https://github.com/linghungegeg/Linghun/blob/main/WHITEPAPER.md英文 READMEhttps://github.com/linghungegeg/Linghun/blob/main/README.en.md许可证Apache License 2.0最后欢迎大家体验、提 issue、提建议。