面试官问：什么是 RLHF？大模型为什么要对齐？

📚 参考：RLHF 与对齐训练 | AI 安全与护栏

场景：面试官问"为什么 ChatGPT 不会教你做炸弹？背后的 RLHF 是怎么工作的？"

考察点：RLHF 三阶段流程、对齐目标 HHH

详细信息

核心回答

RLHF（Reinforcement Learning from Human Feedback）是通过人类偏好反馈来训练模型的方法，核心目的是让模型输出"符合人类价值观"。

text

RLHF 三阶段训练：
┌──────────────────────────────────────────────┐
│ Step 1：SFT 监督微调                          │
│ → 用高质量人类对话数据训练模型基本的对话能力      │
├──────────────────────────────────────────────┤
│ Step 2：训练奖励模型（Reward Model）           │
│ → 人工标注：同样的问题，A 回答比 B 好          │
│ → 训练模型预测人类偏好，输出分数                │
├──────────────────────────────────────────────┤
│ Step 3：PPO 强化学习                          │
│ → 用奖励模型打分，引导模型生成高分回答           │
│ → 同时惩罚偏离原始模型太远的回答（KL 散度约束）  │
└──────────────────────────────────────────────┘

为什么需要对齐：预训练模型只是"预测下一个 token"，天生不会拒绝危险请求。RLHF 让模型学会：

✅ 拒绝回答"如何制作炸弹"
✅ 承认"我不知道"而不是乱编
✅ 输出符合社会伦理的内容

HHH 对齐原则：

Helpful（有帮助）：准确回答问题
Honest（诚实）：不编造、不误导
Harmless（无害）：拒绝有害请求

面试回答要点

记住三阶段：SFT → 奖励模型 → PPO
用一句话解释 RLHF："让人来打分，模型照着高分的方向学"
知道对齐的目标是 HHH

来源：RLHF 与对齐训练概念讲解

面试官问：什么是 RLHF？大模型为什么要对齐？ ​

核心回答 ​

面试回答要点 ​

面试官问：什么是 RLHF？大模型为什么要对齐？

核心回答

面试回答要点