y差分的最小化等价于损失函数的最小化

在神经网络中，训练的目标确实是为了使损失函数（loss function）最小化。不过，当我们通过反向传播算法进行参数更新时，实际上是利用损失函数的梯度信息来更新网络的权重。而你提到的“差分”是损失函数的梯度的一部分。

1. Softmax 层与交叉熵损失

假设使用的是 Softmax 层和交叉熵损失（cross-entropy loss）。在这种情况下，损失函数 L 可以写为：

$$ L = -\sum_{i} t_i \log y_i $$

其中，ti 是目标标签（one-hot 编码），而 yi 是通过 Softmax 计算得到的模型输出（预测的概率分布）。

2. 反向传播中的差分

当我们对损失函数 L 进行反向传播，计算 Softmax 层输出 yi的梯度时，结果会得到如下形式的梯度：

$$ \frac{\partial L}{\partial y_i} = y_i - t_i $$

也就是说，Softmax 层的输出 yi 和目标标签 ti之间的差值就是反向传播过程中传递回去的误差信号。这个差分项 yi−ti 表示的是每个类别的预测概率与真实类别的差异。

3. 为什么是“差分”而不是“损失最小化”？

你提到的 “差分” 实际上就是损失函数的梯度。通过链式法则，反向传播会逐层将这个差分传递回去，更新每一层的参数。虽然最终目标是最小化损失函数，但在每一步更新过程中，模型通过调整权重来减少输出和目标标签之间的误差。这个误差的形式刚好就是 yi−tiy_i - t_iyi−ti，所以在训练过程中，减少这种差分的大小实际上是在减少损失函数的值。

4. 总结

虽然神经网络训练的最终目标是最小化损失函数，但在实际的反向传播中，Softmax 层的反向传播得到的误差项是输出和真实标签的差值 yi−tiy_i - t_iyi−ti。这只是损失函数的梯度的一部分，反向传播就是利用这种差分来更新网络的权重，使得整体的损失逐渐减小。因此，减少差分 yi−tiy_i - t_iyi−ti 实际上是在最小化损失函数。

换句话说，差分的最小化等价于损失函数的最小化。