前向传播

假设:

前向传播的计算公式如下:

$$ Z=XW+b \\A=f(Z) \\其中:

\\Z \in \mathbb{R}^{m \times p}是未激活的输出 \\A \in \mathbb{R}^{m \times p}是激活后的输出

$$

反向传播

假设我们有损失函数 L并且想要计算梯度。我们首先通过反向传播计算各个参数的梯度。

TODO