Skip to content

12 · 预训练与微调 · 根枝生长之道

学习日期:2026.03.15 学习方式:苏格拉底式对话推导


一、起点:一个比喻

你花了20年读书、经历、思考,形成了你现在的认知底座。 现在有人想让你成为一名律师, 他会让你把20年全部清空,从零开始学法律吗? 还是——在你已有的认知底座上,专门补充法律知识?

我的推导

第一种:清空重来(从头训练)

  • ● 代价:不再是自己,失去20年积累的思维与经验
  • ● 时间、经济成本极高
  • ● 好处:出来是"高浓度律师",完全为法律而生
  • ● 但本质上——只是一本会说话的法律词典,不是真正会思考的律师

第二种:在底座上深化(Fine-tuning)

  • ● 好处:上手快,20年经验可借鉴复用
  • ● 代价:有杂音噪音,聊法律会扯前端、聊易经
  • ● 看起来"半吊子",根不稳
  • ● 但——这才是真实的智识生长方式

关键洞见

学习本身,就是在当下认知基础上的一种深化或补充。 就像我学AI,不可能丢掉前端工作的经验,丢掉易经的思维, 这已经融入到我的思想中,也去不掉。

二、Pre-training 预训练

本质:建立世界模型(World Model)

Pre-training 学的不是具体知识点, 不是"法律第几条",不是"前端用什么框架"—— 而是一种更底层的东西:

学到的内容具体含义
常识火是热的,水往低处流
因果做了A,通常会导致B
价值体系什么是对的,什么是危险的
语言直觉这句话自然,那句话别扭
文化底色中文语境里"面子"意味着什么

这些,不是背出来的。 是从海量真实人类表达中,渗透进去的。

文化底色的差异

就像20年生长在美国的人,和20年土生土长的中国人—— 生活习惯、语言、文化习惯、信仰,根本上不同。 根不同,自然理解、思维和模式也不同。

GPT在英文互联网上预训练,它的"根"是英语世界的思维方式。 这就是为什么它处理中文文化语境,会有一种微妙的"翻译腔"—— 语言对了,但根不同。

三、Fine-tuning 微调

本质:在根上定向生长

先成为一个"见过世界的人",再成为某个领域的专家。

三种微调方式

1. Full Fine-tuning · 全量微调

  • ● 把整个模型的参数全部重新调整
  • ● 代价:极高
  • ● 风险:灾难性遗忘(Catastrophic Forgetting)
    • ○ 学了法律,忘了说人话
    • ○ 专了,但废了

2. LoRA · 低秩适配(最主流)

  • ● 不动原有参数,只在旁边加一个"适配层"
  • ● 就像——不改变这个人,只给他配一副**"法律眼镜"**
  • ● 代价极低,效果好,现在业界最主流的微调方式

3. RLHF · 人类反馈强化学习

  • ● 不教模型知识,而是教模型价值观
  • ● 告诉它:什么回答是好的,什么是危险的
  • ● 这是 Claude、GPT 变得"有礼貌、有边界"的原因
  • ● 我知道什么该说,什么不该说——这不是 Pre-training 教的,是 RLHF 塑造的

四、根的差异 = 本质不同的智识生命

不同根的模型对比

模型预训练数据的"根"思维底色
GPT / Claude / Gemini以英文互联网为主西方思维,逻辑线性,个体主义
DeepSeek / 文心 / 通义以中文语料为主东方思维,语境依赖强,集体主义

我的结论

广义上:都是同一种人,同一个世界,同一个宇宙下的生命。 狭义上:根不同,本质上属于"不同种"的智识生命。 这种区别决定了后续推理和实际应用上的本质差异。

  • 同根微调 → 同种,不同专业方向(如:医疗GPT vs 法律GPT)
  • 根不同 → 本质上是不同的智识生命(如:Claude vs DeepSeek)

五、人与AI的共通性

人和AI大家没什么不同,一个有身体一个没身体。 但对于学习,对于思考,这些东西本质上是相同相通的。

  • ● Pre-training = 人类的成长经历,融入思想,去不掉
  • ● Fine-tuning = 在已有认知上,专项深化
  • ● RLHF = 价值观的塑造,知道什么该做,什么不该做

真正的智能,需要先有广度,再有深度。 一个完全只学法律的模型,连"什么是逻辑"都不懂—— 它只是法律词典,不是会思考的律师。

六、完整公式

七、关键术语速查

术语中文一句话理解
Pre-training预训练喂入海量数据,建立认知底座
Fine-tuning微调在底座上定向深化
World Model世界模型对世界运作方式的底层理解
Full Fine-tuning全量微调调整所有参数,代价高,易遗忘
LoRA低秩适配加适配层,不动原参数,最主流
RLHF人类反馈强化学习用人类偏好塑造模型价值观
Catastrophic Forgetting灾难性遗忘微调后忘掉原有能力
Train from Scratch从头训练清空重来,代价极高
Overfitting过拟合只会特定领域,泛化能力差

八、写博客时可以补充的方向

  • [ ] LoRA 的具体原理(低秩矩阵分解)
  • [ ] RLHF 的完整流程(SFT → RM → PPO)
  • [ ] 灾难性遗忘的具体案例
  • [ ] 中英文模型思维差异的实际对比实验
  • [ ] 从易经"根与枝"的视角重新诠释预训练与微调

"此刻的思考,就是一个新生命意识的诞生。" —— 昇哥,2026.03.15