面试官问:什么是 RLHF?大模型为什么要对齐?
📚 参考:RLHF 与对齐训练 | AI 安全与护栏
场景:面试官问"为什么 ChatGPT 不会教你做炸弹?背后的 RLHF 是怎么工作的?"
考察点:RLHF 三阶段流程、对齐目标 HHH
详细信息
核心回答
RLHF(Reinforcement Learning from Human Feedback)是通过人类偏好反馈来训练模型的方法,核心目的是让模型输出"符合人类价值观"。
text
RLHF 三阶段训练:
┌──────────────────────────────────────────────┐
│ Step 1:SFT 监督微调 │
│ → 用高质量人类对话数据训练模型基本的对话能力 │
├──────────────────────────────────────────────┤
│ Step 2:训练奖励模型(Reward Model) │
│ → 人工标注:同样的问题,A 回答比 B 好 │
│ → 训练模型预测人类偏好,输出分数 │
├──────────────────────────────────────────────┤
│ Step 3:PPO 强化学习 │
│ → 用奖励模型打分,引导模型生成高分回答 │
│ → 同时惩罚偏离原始模型太远的回答(KL 散度约束) │
└──────────────────────────────────────────────┘1
2
3
4
5
6
7
8
9
10
11
12
13
2
3
4
5
6
7
8
9
10
11
12
13
为什么需要对齐:预训练模型只是"预测下一个 token",天生不会拒绝危险请求。RLHF 让模型学会:
- ✅ 拒绝回答"如何制作炸弹"
- ✅ 承认"我不知道"而不是乱编
- ✅ 输出符合社会伦理的内容
HHH 对齐原则:
- Helpful(有帮助):准确回答问题
- Honest(诚实):不编造、不误导
- Harmless(无害):拒绝有害请求
面试回答要点
- 记住三阶段:SFT → 奖励模型 → PPO
- 用一句话解释 RLHF:"让人来打分,模型照着高分的方向学"
- 知道对齐的目标是 HHH
