假设:
输入矩阵为
$$ X \in \mathbb{R}^{m \times n} $$
权重矩阵为
$$ W \in \mathbb{R}^{n \times p} $$
偏置向量为
$$ b \in \mathbb{R}^{p} $$
激活函数为 f
前向传播的计算公式如下:
$$ Z=XW+b \\A=f(Z) \\其中:
\\Z \in \mathbb{R}^{m \times p}是未激活的输出 \\A \in \mathbb{R}^{m \times p}是激活后的输出
$$
假设我们有损失函数 L并且想要计算梯度。我们首先通过反向传播计算各个参数的梯度。
TODO