面试官问:什么是大语言模型(LLM)?GPT 系列如何演进?
📚 参考:大语言模型 LLM | Transformer 架构
考察点:LLM 的核心能力来源(Scaling Law + 涌现能力)、GPT 系列各版本的关键突破、LLM 与本征 AGI 的区别
详细信息
核心回答
LLM(Large Language Model)是基于 Transformer 架构、拥有数十亿参数,通过海量文本训练的语言模型。核心能力来源于规模:
text
Scaling Law(规模定律):模型参数量越大、训练数据越多、
计算量越大 → 模型能力越强,且可预测
关键发现:当参数量超过某个阈值后 → 涌现能力(Emergence)
—— 小模型没有、大模型突然出现的"开悟"能力
如:上下文学习、思维链推理、指令遵循1
2
3
4
5
6
2
3
4
5
6
GPT 系列演进:
| 版本 | 年份 | 参数量 | 关键突破 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17 亿 | 证明预训练+微调可行 |
| GPT-2 | 2019 | 15 亿 | 零样本能力初现 |
| GPT-3 | 2020 | 1750 亿 | 涌现能力,少样本学习 |
| GPT-3.5 | 2022 | - | 强化 RLHF 对齐 |
| GPT-4 | 2023 | 未公开 | 多模态(文本+图像),更强推理 |
LLM ≠ AGI:LLM 本质是"next token prediction",没有真正的理解和意识。但通过 Scaling + RLHF + 工具使用,表现越来越接近通用智能。
面试回答要点
- 说清楚"大"的含义:参数量(B 级)和训练数据量
- 举例涌现能力:GPT-4 能做小学数学但 GPT-1/2 做不到
- 知道 GPT 系列关键演进节点
