梯度下降 vs. 随机梯度下降

  1. 标准梯度下降(Batch Gradient Descent)
  2. 随机梯度下降(SGD)

“随机”体现在哪里?

  1. 随机选择样本
  2. 随机性来源

为什么随机性有用?

  1. 计算效率
  2. 逃离局部最优
  3. 在线学习

变体:小批量梯度下降(Mini-batch SGD)


总结