面试官问:监督学习、无监督学习、强化学习的区别?
考察点:三大机器学习范式的区分标准(数据是否有标签)、自监督学习与 LLM 训练的关系、RLHF 的本质理解
详细信息
核心回答
机器学习三大范式,按"数据是否有标签"区分:
| 范式 | 数据特征 | 目标 | 典型算法 |
|---|---|---|---|
| 监督学习 | 有标签 (x→y) | 学习映射关系 | 线性回归、决策树、CNN |
| 无监督学习 | 无标签 | 发现数据结构 | K-Means、PCA、自编码器 |
| 强化学习 | 与环境交互 | 最大化累积奖励 | Q-Learning、PPO |
text
监督学习:给学生「题目+答案」,考试考同类题
无监督学习:给学生「一堆题目」,自己找出题目的规律
强化学习:学生不知道答案,但做对了给糖,做错了惩罚,不断试错1
2
3
2
3
关键延伸:
- 半监督学习:少量标签 + 大量无标签数据
- 自监督学习:从数据自身生成标签(BERT 的 MLM、GPT 的 Next Token Prediction)—— 这是 LLM 训练的核心
面试回答要点
- 清晰区分三者的"数据是否有标签"
- 能说出 Transformer/LLM 使用自监督学习
- RLHF(强化学习人类反馈)是 RL + 监督的组合
来源:机器学习概念讲解
