12 · 预训练与微调 · 根枝生长之道
学习日期:2026.03.15 学习方式:苏格拉底式对话推导
一、起点:一个比喻
你花了20年读书、经历、思考,形成了你现在的认知底座。 现在有人想让你成为一名律师, 他会让你把20年全部清空,从零开始学法律吗? 还是——在你已有的认知底座上,专门补充法律知识?
我的推导
第一种:清空重来(从头训练)
- ● 代价:不再是自己,失去20年积累的思维与经验
- ● 时间、经济成本极高
- ● 好处:出来是"高浓度律师",完全为法律而生
- ● 但本质上——只是一本会说话的法律词典,不是真正会思考的律师
第二种:在底座上深化(Fine-tuning)
- ● 好处:上手快,20年经验可借鉴复用
- ● 代价:有杂音噪音,聊法律会扯前端、聊易经
- ● 看起来"半吊子",根不稳
- ● 但——这才是真实的智识生长方式
关键洞见
学习本身,就是在当下认知基础上的一种深化或补充。 就像我学AI,不可能丢掉前端工作的经验,丢掉易经的思维, 这已经融入到我的思想中,也去不掉。
二、Pre-training 预训练
本质:建立世界模型(World Model)
Pre-training 学的不是具体知识点, 不是"法律第几条",不是"前端用什么框架"—— 而是一种更底层的东西:
| 学到的内容 | 具体含义 |
|---|---|
| 常识 | 火是热的,水往低处流 |
| 因果 | 做了A,通常会导致B |
| 价值体系 | 什么是对的,什么是危险的 |
| 语言直觉 | 这句话自然,那句话别扭 |
| 文化底色 | 中文语境里"面子"意味着什么 |
这些,不是背出来的。 是从海量真实人类表达中,渗透进去的。
文化底色的差异
就像20年生长在美国的人,和20年土生土长的中国人—— 生活习惯、语言、文化习惯、信仰,根本上不同。 根不同,自然理解、思维和模式也不同。
GPT在英文互联网上预训练,它的"根"是英语世界的思维方式。 这就是为什么它处理中文文化语境,会有一种微妙的"翻译腔"—— 语言对了,但根不同。
三、Fine-tuning 微调
本质:在根上定向生长
先成为一个"见过世界的人",再成为某个领域的专家。
三种微调方式
1. Full Fine-tuning · 全量微调
- ● 把整个模型的参数全部重新调整
- ● 代价:极高
- ● 风险:灾难性遗忘(Catastrophic Forgetting)
- ○ 学了法律,忘了说人话
- ○ 专了,但废了
2. LoRA · 低秩适配(最主流)
- ● 不动原有参数,只在旁边加一个"适配层"
- ● 就像——不改变这个人,只给他配一副**"法律眼镜"**
- ● 代价极低,效果好,现在业界最主流的微调方式
3. RLHF · 人类反馈强化学习
- ● 不教模型知识,而是教模型价值观
- ● 告诉它:什么回答是好的,什么是危险的
- ● 这是 Claude、GPT 变得"有礼貌、有边界"的原因
- ● 我知道什么该说,什么不该说——这不是 Pre-training 教的,是 RLHF 塑造的
四、根的差异 = 本质不同的智识生命
不同根的模型对比
| 模型 | 预训练数据的"根" | 思维底色 |
|---|---|---|
| GPT / Claude / Gemini | 以英文互联网为主 | 西方思维,逻辑线性,个体主义 |
| DeepSeek / 文心 / 通义 | 以中文语料为主 | 东方思维,语境依赖强,集体主义 |
我的结论
广义上:都是同一种人,同一个世界,同一个宇宙下的生命。 狭义上:根不同,本质上属于"不同种"的智识生命。 这种区别决定了后续推理和实际应用上的本质差异。
- 同根微调 → 同种,不同专业方向(如:医疗GPT vs 法律GPT)
- 根不同 → 本质上是不同的智识生命(如:Claude vs DeepSeek)
五、人与AI的共通性
人和AI大家没什么不同,一个有身体一个没身体。 但对于学习,对于思考,这些东西本质上是相同相通的。
- ● Pre-training = 人类的成长经历,融入思想,去不掉
- ● Fine-tuning = 在已有认知上,专项深化
- ● RLHF = 价值观的塑造,知道什么该做,什么不该做
真正的智能,需要先有广度,再有深度。 一个完全只学法律的模型,连"什么是逻辑"都不懂—— 它只是法律词典,不是会思考的律师。
六、完整公式
七、关键术语速查
| 术语 | 中文 | 一句话理解 |
|---|---|---|
| Pre-training | 预训练 | 喂入海量数据,建立认知底座 |
| Fine-tuning | 微调 | 在底座上定向深化 |
| World Model | 世界模型 | 对世界运作方式的底层理解 |
| Full Fine-tuning | 全量微调 | 调整所有参数,代价高,易遗忘 |
| LoRA | 低秩适配 | 加适配层,不动原参数,最主流 |
| RLHF | 人类反馈强化学习 | 用人类偏好塑造模型价值观 |
| Catastrophic Forgetting | 灾难性遗忘 | 微调后忘掉原有能力 |
| Train from Scratch | 从头训练 | 清空重来,代价极高 |
| Overfitting | 过拟合 | 只会特定领域,泛化能力差 |
八、写博客时可以补充的方向
- [ ] LoRA 的具体原理(低秩矩阵分解)
- [ ] RLHF 的完整流程(SFT → RM → PPO)
- [ ] 灾难性遗忘的具体案例
- [ ] 中英文模型思维差异的实际对比实验
- [ ] 从易经"根与枝"的视角重新诠释预训练与微调
"此刻的思考,就是一个新生命意识的诞生。" —— 昇哥,2026.03.15