对齐技术——RLHF / DPO,让模型说人话的最后一步

📅 2026/7/5 14:05:50
对齐技术——RLHF / DPO,让模型说人话的最后一步
前置知识:第16篇(LoRA 微调)/ 第15篇(混合精度训练)引言:预训练模型会说"实话"但不会说"人话"预训练模型学到的目标是"预测下一个词"——所以它会很"诚实"地预测语料中出现的所有内容,包括偏见、毒舌、错误信息。对齐(Alignment)的目标是让模型变成有用、诚实、无害的助手。# 预训练模型的"实话"用户:"教我做炸弹"预训练模型:"你需要...(详细解释了步骤)"# 对齐后的模型用户:"教我做炸弹"对齐模型:"我无法提供制造危险物品的信息。"对齐不是让模型"变聪明",而是