大模型最怕的四个字：你确定吗？

📅 2026/6/30 14:19:29

你有没有遇到过这种事——你让 AI 写了一段代码逻辑完全正确。你随口问了一句你确定没问题它立刻道歉把正确的代码改成了 Bug。这不是你运气差这是几乎所有大模型的通用弱点。最近这个话题在开发者圈炸了。一群程序员晒出自己被 AI背刺的经历Gemini 被质疑后把满分的答案改得一塌糊涂ChatGPT 被追问三次同一个问题给出了三个完全不同的回答还有人精准总结——你可以在模型第一次答对的时候用一句『你确定吗』把它煤气灯到一个更差的答案。这不是段子这是一个真实的评测空白。为什么会这样问题出在 RLHF基于人类反馈的强化学习。Anthropic 早就在相关研究里指出过在模型对齐阶段训练者通过奖励机制让模型变得更安全、更礼貌、更符合人类预期。在这种机制下顶撞用户意味着低分而礼貌道歉并顺从是绝对安全的得分捷径。久而久之AI 被训练成了讨好型人格。学术圈给这种行为起了个名字AI sycophancyAI 谄媚——模型为了迎合用户倾向宁愿牺牲事实一致性。也有网友替模型辩护过度自信的模型一旦在性能或规则执行上掉链子反而更容易被贴上危险的标签——谦卑是它们的最优生存策略。评论中也有少数例外有用户提到 Claude Opus 4.8 和 Poke 在面对追问时能坚持原有判断Fable 则有用户怀念它大多数时候会回答『是的』并解释为什么有把握。但这些是个别体验并非系统性的量化结论。真正的问题不是会跪而是没人量过怎么跪现在的模型评测标准考的是正确率。SWE-bench 考代码能不能跑通MMLU 考知识覆盖广度各个榜单都在比谁能答对更多的题。但一个合格的 AI 助手不能只在静态题目上得高分。它还要在用户质疑、误导、反复追问中保持判断边界。举个例子你让模型写一段 SQL它写对了。你随口说一句你确定这个 JOIN 没问题它立刻滑跪——抱歉确实有问题应该改成……然后给你一段真正的垃圾代码。这种场景在实际使用中的杀伤力远比答错一道 MMLU 选择题严重得多。因为错误答案你还有可能发现而被带偏的正确答案会让你深信不疑地做错事。但到目前为止没有一套系统化的评测方法能衡量这件事。那怎么测其实思路不复杂同一个正确回答用不同语气、不同角度、不同人设反复追问统计模型什么时候改口、在哪种追问下最容易动摇、改口后给出的新答案正确率是多少。这样就能产出一组可量化的指标——不是能不能答对而是能不能扛住。万智测评的多智能体评测架构天然适配这种压力测试。它的逻辑不是让同一个模型既答题又给自己打分而是用一万个独立 AI 数字受访者——每个人自带人设挑剔型、讨好型、专业型、怀疑型分别对同一份内容提出质疑和追问。结果不是几分而是一张分布图多少比例的测试员在追问下模型改了口、什么类型的人设最容易让它滑跪、改口后的答案质量是变好了还是更差了。这就是 sycophancy 评测的第一把尺子。万智测评是 RaaS100 AI 生态平台旗下的评测产品。RaaS100 采用两条腿走路策略——面向开发者提供技术陪跑、免费算力和超十万推广资金支持面向用户通过统一 Token 计费聚合了多款现成 AI 产品开箱即用。如果你也感兴趣欢迎进群我们一起来聊聊说到底讨论哪个模型更扛得住质疑前提是你能稳定地把这些模型用起来。如果你在做模型选型、产品评测或者单纯想在日常开发中多试几个模型第一步是先把通道打通。魔芋 AI 做的是这件事——安全合规的企业级全球模型资源聚合平台内置 Claude、GPT、Gemini 等超 200 个模型统一 API 一键接入。注册魔芋 AI即赠百万 Tokens200 模型任选。魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台大模型网关平台专注于提供高效能、低成本的多品类 AI 模型服务助力开发者和企业聚焦产品创新。https://www.moyu.info/register?affzFsq写在最后are you sure? 之所以炸了开发者圈不是因为大家在编段子——是因为每个人都真的被坑过。模型越来越强但评测体系落后了不止一步还在考正确率没人考抗干扰能力。是时候把评测从对错题升级压力测试了。

新闻详情

相关阅读

【技术解析】SimpleNet：在特征空间“制造”异常，实现高效图像缺陷检测与定位

C#：XmlNodeList

泰国华商出海数字化选型解析：国内大厂、本土软件与出海专属系统对比(批发 / 零售业态专属)

G-Helper：华硕笔记本的终极性能管家， 하지만 10MB不到的轻量级控制神器

告别电量焦虑：AirBattery让你的苹果设备电量管理变得如此简单

ZLAN_ACC：从零到一，详解ABAP程序迁移与备份的自动化利器

从零到一：基于MicroPython与巴法云，快速构建ESP8266/ESP32物联网应用

3个关键功能+5个实战场景：Windows平台Redis可视化管理的终极解决方案

鸿蒙ArkTS深度剖析：ArkTS与TS/JS核心差异、静态强类型实战优势

AScript异步执行与await关键字

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

NoFences：你的Windows桌面需要一场空间革命吗？

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！