RLHF 与对齐训练
概念
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是将 LLM 的输出与人类偏好对齐的关键技术。预训练使模型"有知识",RLHF 使模型"会做人"——确保回答有用、诚实、无害。
如果没有对齐训练,LLM 会像一部续写机器,而不是能遵循指令和价值观的助手。
为什么需要对齐
预训练模型的问题:
- 不会对话:只会续写文本,不会回答提问
- 有害输出:可能生成不当或危险内容
- 编造事实:预训练阶段不管事实正确性
- 无法拒绝:即使不知道也会强行回答
对齐训练的目标是让模型实现 HHH 原则:
- Helpful(有帮助)
- Honest(诚实)
- Harmless(无害)
三阶段对齐流程
阶段一:SFT(Supervised Fine-Tuning,监督微调)
用高质量人工编写的指令-回答对训练模型:
- 数据来自专业标注人员
- 让模型学会"对话格式"和基本指令遵循
- 数据量通常数千到数万条
阶段二:RM(Reward Model,奖励模型训练)
- 让 SFT 后的模型对同一条 prompt 生成多个回答
- 人工标注员对这些回答排序(A > B > C)
- 用排序数据训练一个奖励模型,学会预测"人类更偏好哪个回答"
阶段三:PPO(Proximal Policy Optimization)
用强化学习进一步优化模型:
- LLM 生成回答
- RM(奖励模型)打分
- 通过 PPO 算法更新 LLM 参数以最大化奖励
- 同时约束新策略不要偏离 SFT 模型太远(KL 散度约束)
DPO vs RLHF
DPO(Direct Preference Optimization)是一种不需要训练奖励模型的对齐方法:
| 维度 | RLHF(PPO) | DPO |
|---|---|---|
| 是否需要奖励模型 | 是 | 否 |
| 训练复杂度 | 高(四模型交互) | 低(直接优化) |
| 训练稳定性 | 需调参 | 较稳定 |
| 使用 | ChatGPT、Claude | Llama 3、Mistral |
DPO 直接从偏好数据优化策略,把 RLHF 的三阶段简化为两阶段。
面试常问
- 为什么 LLM 需要对人类偏好对齐?不这么做会怎样?
- RLHF 的三个阶段各是什么?DPO 简化了什么?
- 对齐训练可能带来哪些副作用(如过度拒绝、政治偏见等)?
