可以使学习快速进行(可以增大学习率)
不那么依赖初始值(对于初始值不用那么神经质)
抑制过拟合(降低Dropout等的必要性)