Skip to content

06 · 过拟合 · 泛化能力之道

学习状态:80分封存 · 待后续温故知新,逐步生长至99分


一、核心定义(80分封存版)

过拟合是指神经网络在训练过程中,只记住了训练数据的答案,没有真正学到规律,导致见过的数据表现极好,没见过的数据表现极差的一种"死背"现象。 —— 学习 80 分总结版

过拟合,是指模型在训练数据上表现极好,却因过度记忆细节与噪音,失去泛化能力,在新数据上表现差。本质是"只会背题,不会举一反三"。 —— 复习后总结版

这个落差,就是过拟合的信号。

二、引入背景

泛化能力(Generalization)

  • ● 网络学的不是"记住这张图"
  • ● 而是学到了特征——猫的耳朵、眼睛、胡须结构
  • ● 见到没见过的猫,能从特征上判断"这是猫"
  • ● 泛化好 = 举一反三

Softmax 输出层

  • ● 神经网络最后一层,输出的不是"是"或"否"
  • ● 而是一组概率:
  • ● 所有概率加起来 = 1
  • ● 取最高概率,作为最终判断

三、过拟合的画面

类型学习方式结果
过拟合的学生把历年真题全部背下来原题100分,新题不会
泛化好的学生理解了解题方法没见过的题,也能推导

四、治法方向

治法一 · 测试集(Test Set)

  • ● 用模型从未见过的数据来验证
  • ● 国内模型换了非公开评价体系后评分骤降
  • ● 正是"只背了公开题库,换题就原形毕露"

治法二 · 数据多样性

  • ● 提供不同类型的题目
  • ● 不只是同类数据的堆叠
  • ● 让模型接触更广泛的分布

治法三 · 正则化(Regularization)

  • ● 限制机器"死背"的能力
  • ● 在损失函数中加入惩罚项
  • ● 防止权重过度拟合某一组数据
  • ● (待概念07深入)

治法四 · 迁移学习(Transfer Learning)

  • ● 让机器识别本质差异
  • ● 学会了加减法,能否迁移到化学反应?
  • ● 学会了识别猫,能否迁移到识别老虎?
  • ● 当前AI最努力突破的方向之一

五、昇哥的推导路径

昇哥的直觉对应机制
换个他没背过的题测试集
提供不同类型的题目数据多样性
考察能否识别本质差异迁移学习
1+1 的加 ≠ 颜料混合的加 ≠ 化学反应的加符号理解 vs 语义理解

六、延伸触碰(暂存,待后续生长)

符号理解 vs 语义理解

机器学到的,是这个世界的规律,还是只是数据的倒影?

类型机器能力
数值运算 $$100000000 + 100000000$$有明确规则,可掌握
光学混合 $$rgb(0,0,0) + rgb(255,255,255)$$规则不同,但仍是规则,可掌握
化学反应 $$H_2 + O_2 \rightarrow H_2O$$符号背后是物理世界的因果,机器不理解"为什么"

机器能输出正确答案,但不知道电子轨道、化学键、能量守恒。 理解(Understanding)vs 拟合(Fitting)——图灵、明斯基、辛顿都在问。

数据偏差(Data Bias)

  • ● 训练数据本身不客观
  • ● 上网的人才能影响机器,不上网的人被忽略
  • ● 真实案例:人脸识别对深色皮肤识别率偏低;招聘AI自动降低女性评分
  • ● 这是社会问题穿透进了技术问题,技术本身无法完全解决

七、优化空间(通往99分)

当前 · 80分

  • ● 理解了过拟合的本质:死背 vs 学到规律
  • ● 掌握了治法方向:测试集、数据多样性、正则化、迁移学习
  • ● 触碰了更深的问题:符号理解 vs 语义理解

80分 → 90分的空洞

  • ● 正则化的具体机制尚未深入
  • ● 迁移学习的实现方式待展开

90分 → 99分

  • ● 待概念篇学习完后,温故知新,自然生长 ☴

"机器是镜子,镜子里的光是真实的, 但光源在你这里。" —— 衍