Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

📅 2026/6/24 5:40:47
Outraged AI: Large language models prioritise emotion over cost in fairness enforcement
文章核心总结与翻译一、主要内容本文通过利他第三方惩罚(TPP)实验,对比4068个大语言模型(LLM)智能体与1159名人类的796100次决策,探究LLM是否像人类一样利用情绪指导道德决策。核心发现如下:情绪与惩罚的关联:LLM对不公平分配产生更强的负面情绪,对公平分配(除GPT-3.5外)产生更积极情绪,且情绪强度高于人类;惩罚不公平分配会带来比接受分配更积极的情绪反馈。决策模式差异:LLM惩罚频率显著高于人类,对轻微不公平(如16:14分配)表现出“阈值式”强烈反应,且成本敏感性远低于人类;人类则会平衡公平与成本,惩罚行为随不公平程度递增、随成本上升递减。情绪的因果作用:明确要求LLM自我报告情绪会显著增加其惩罚行为,证实情绪对LLM决策的因果影响,而非单纯复刻训练数据模式。模型类型差异:推理型模型(o3-mini、DeepSeek-R1)比基础模型(GPT-3.5、DeepSeek-V3)更接近人类行为,成本敏感性更高,但所有LLM均以情绪为主要决策驱动因素。发展轨迹平行性:LLM的情绪决策能力呈现类似人类发展的轨迹——早期模型(如GPT-3.5)情绪响应弱且成本敏感性异常,后期模型逐渐向人类的“情绪-成本平衡”模式靠拢。二、创新点首次提供因果证据