20 · 损失函数 · 误差量尺之道

一、一句话理解

模型的答案和正确答案差多远，损失函数就是那把量尺。

想象你在练习投篮：

名称	用在哪	直觉理解
MSE 均方误差	回归任务（预测数字）	把每个误差平方再取平均，惩罚大误差
Cross Entropy 交叉熵	分类任务（预测类别）	衡量预测的概率分布和真实分布差多远

大语言模型用的就是 Cross Entropy——每次预测下一个 Token，看预测对不对。

损失函数是模型训练的指挥棒：

没有损失函数，模型就不知道自己预测得对不对，根本无法学习。

每次占卜之后，对照实际发生的结果，看之前的判断差了多少，下次占卜时就调整自己的解卦思路，越来越准。损失值就是占卜结果和实际结果的差距，训练就是不断校准解卦思路的过程。

损失函数就像考试的打分老师：

大语言模型每次预测下一个词，本质是分类任务：几万个词里选哪个是对的。交叉熵特别适合这种场景：

❌ 误区：损失值越低模型一定越好 ✅ 真相：训练集损失很低但测试集损失很高，就是过拟合了，模型背下来了训练数据但不会举一反三，反而不好。

❌ 误区：所有任务都用同一种损失函数 ✅ 真相：不同任务目标不一样，需要选对应的损失函数。比如预测房价用MSE，图片分类用交叉熵，生成对抗网络用GAN专用损失。

❌ 误区：损失值到0才是最好的 ✅ 真相：真实场景里几乎不可能达到损失为0，而且强行追求0损失很容易过拟合，只要验证集损失不再下降就可以停止训练了。