反向传播

概念

反向传播（Backpropagation）是训练神经网络的核心算法，用于高效地计算损失函数相对于网络各层参数的梯度。有了梯度，才可以用梯度下降来更新参数。

核心思想：利用链式法则，将输出层的误差逐层反向传播到输入层，沿途计算每个参数的梯度。

数据从输入层经过各隐藏层，逐层计算，最终得到预测值和损失值：

输入 → 层1 → 层2 → ... → 输出 → 损失

从损失出发，沿网络反向逐层计算梯度：

∂L/∂W⁽ⁿ⁾ = ∂L/∂a⁽ⁿ⁾ · ∂a⁽ⁿ⁾/∂z⁽ⁿ⁾ · ∂z⁽ⁿ⁾/∂W⁽ⁿ⁾

W_new = W_old - learning_rate · ∂L/∂W

现代深度学习框架（PyTorch、TensorFlow）使用计算图来自动求导：

开发者不需要手动推导和实现反向传播公式。

深层网络中，梯度在反向传播时逐层减小，导致靠近输入层的参数几乎不更新。

梯度在反向传播时逐层放大，导致参数更新过大，模型无法收敛。