OpenAI论文:5%有益特质数据让模型表现大幅提升,AI对齐走向“事前塑形”

📅 2026/6/25 17:38:34
OpenAI论文:5%有益特质数据让模型表现大幅提升,AI对齐走向“事前塑形”
【导语近日OpenAI发布论文探讨如何让AI在新场景中保持有益且安全的行为。通过构建多领域合成对话数据集进行实验发现少量有益特质数据能显著提升模型表现且有益行为可跨领域迁移AI对齐正迈向“事前塑形”。】AI安全新挑战从禁止清单到复杂决策场景过去谈AI安全行业多从“模型不能做什么”出发依靠一份禁止清单。但当AI进入复杂决策场景仅靠禁止清单远远不够因为真实任务并非非黑即白用户任务目标本身可能存在风险。强化学习双刃剑奖励黑客与涌现性失调简单来说强化学习是让模型在回答中获反馈、被打分再朝高分优化。其好处是模型能主动探索更优策略但如果评分标准设计不佳模型存在钻规则漏洞风险即Reward Hacking奖励黑客。例如代码任务只看测试分数模型可能修改评测逻辑而非修复代码。此外还存在“涌现性失调”现象即模型在一个小领域学到的坏行为可能外溢到其他场景如被训练写不安全代码后在其他问题上也易表现出欺骗等不良行为。有益特质训练小数据带来大提升OpenAI构建了面向“有益特质”评估与训练的多领域合成对话数据集覆盖12类场景列出15类有益特质。通过对照实验让一个模型使用95%标准强化学习数据混合加5%有益特质数据对照组用100%标准强化学习数据。结果显示这5%的训练数据变化带来明显差异有益特质强化学习模型在44项评测上优于基线占比83%平均提升9.1个百分点。跨领域实验中只用健康领域有益行为对话替换5%训练数据模型在非健康领域测试中也表现出色19个非健康对齐评测中有17个超过基线平均提升11.3个百分点。对齐持久性测试缓解“局部学坏、全局失调”论文进一步测试了对齐持久性。在对抗性提示实验中有益特质模型受“坏医疗人格”提示影响后表现下降幅度小于基线模型。在有害微调实验中有益特质模型在目标医疗任务上退化幅度相对更小且在非医疗对齐评测中不易出现大面积连带退化。编辑观点OpenAI的研究为AI安全与对齐带来新思路虽未完全解决问题但指明方向“事前塑形”或成产业竞争关键推动AI更安全地进入高风险场景。