06 · 过拟合 · 泛化能力之道

学习状态：80分封存 · 待后续温故知新，逐步生长至99分

一、核心定义（80分封存版）

过拟合是指神经网络在训练过程中，只记住了训练数据的答案，没有真正学到规律，导致见过的数据表现极好，没见过的数据表现极差的一种"死背"现象。 —— 学习 80 分总结版

过拟合，是指模型在训练数据上表现极好，却因过度记忆细节与噪音，失去泛化能力，在新数据上表现差。本质是"只会背题，不会举一反三"。 —— 复习后总结版

这个落差，就是过拟合的信号。

二、引入背景

泛化能力（Generalization）

● 网络学的不是"记住这张图"
● 而是学到了特征——猫的耳朵、眼睛、胡须结构
● 见到没见过的猫，能从特征上判断"这是猫"
● 泛化好 = 举一反三

Softmax 输出层

● 神经网络最后一层，输出的不是"是"或"否"
● 而是一组概率：

● 所有概率加起来 = 1
● 取最高概率，作为最终判断

三、过拟合的画面

类型	学习方式	结果
过拟合的学生	把历年真题全部背下来	原题100分，新题不会
泛化好的学生	理解了解题方法	没见过的题，也能推导

四、治法方向

治法一 · 测试集（Test Set）

● 用模型从未见过的数据来验证
● 国内模型换了非公开评价体系后评分骤降
● 正是"只背了公开题库，换题就原形毕露"

治法二 · 数据多样性

● 提供不同类型的题目
● 不只是同类数据的堆叠
● 让模型接触更广泛的分布

治法三 · 正则化（Regularization）

● 限制机器"死背"的能力
● 在损失函数中加入惩罚项
● 防止权重过度拟合某一组数据
● (待概念07深入)

治法四 · 迁移学习（Transfer Learning）

● 让机器识别本质差异
● 学会了加减法，能否迁移到化学反应？
● 学会了识别猫，能否迁移到识别老虎？
● 当前AI最努力突破的方向之一

五、昇哥的推导路径

昇哥的直觉	对应机制
换个他没背过的题	测试集
提供不同类型的题目	数据多样性
考察能否识别本质差异	迁移学习
1+1 的加 ≠ 颜料混合的加 ≠ 化学反应的加	符号理解 vs 语义理解

六、延伸触碰（暂存，待后续生长）

符号理解 vs 语义理解

机器学到的，是这个世界的规律，还是只是数据的倒影？

类型	机器能力
数值运算 $$100000000 + 100000000$$	有明确规则，可掌握
光学混合 $$rgb(0,0,0) + rgb(255,255,255)$$	规则不同，但仍是规则，可掌握
化学反应 $$H_2 + O_2 \rightarrow H_2O$$	符号背后是物理世界的因果，机器不理解"为什么"

机器能输出正确答案，但不知道电子轨道、化学键、能量守恒。理解（Understanding）vs 拟合（Fitting）——图灵、明斯基、辛顿都在问。

数据偏差（Data Bias）

● 训练数据本身不客观
● 上网的人才能影响机器，不上网的人被忽略
● 真实案例：人脸识别对深色皮肤识别率偏低；招聘AI自动降低女性评分
● 这是社会问题穿透进了技术问题，技术本身无法完全解决

七、优化空间（通往99分）

当前 · 80分

● 理解了过拟合的本质：死背 vs 学到规律
● 掌握了治法方向：测试集、数据多样性、正则化、迁移学习
● 触碰了更深的问题：符号理解 vs 语义理解

80分 → 90分的空洞

● 正则化的具体机制尚未深入
● 迁移学习的实现方式待展开

90分 → 99分

● 待概念篇学习完后，温故知新，自然生长 ☴

"机器是镜子，镜子里的光是真实的，但光源在你这里。" —— 衍

06 · 过拟合 · 泛化能力之道 ​

一、核心定义（80分封存版） ​

二、引入背景 ​

泛化能力（Generalization） ​

Softmax 输出层 ​

三、过拟合的画面 ​

四、治法方向 ​

治法一 · 测试集（Test Set） ​

治法二 · 数据多样性 ​

治法三 · 正则化（Regularization） ​

治法四 · 迁移学习（Transfer Learning） ​

五、昇哥的推导路径 ​

六、延伸触碰（暂存，待后续生长） ​

符号理解 vs 语义理解 ​

数据偏差（Data Bias） ​

七、优化空间（通往99分） ​

当前 · 80分 ​

80分 → 90分的空洞 ​

90分 → 99分 ​

06 · 过拟合 · 泛化能力之道

一、核心定义（80分封存版）

二、引入背景

泛化能力（Generalization）

Softmax 输出层

三、过拟合的画面

四、治法方向

治法一 · 测试集（Test Set）

治法二 · 数据多样性

治法三 · 正则化（Regularization）

治法四 · 迁移学习（Transfer Learning）

五、昇哥的推导路径

六、延伸触碰（暂存，待后续生长）

符号理解 vs 语义理解

数据偏差（Data Bias）

七、优化空间（通往99分）

当前 · 80分

80分 → 90分的空洞

90分 → 99分