1. 数值稳定性¶



① MLP:多层感知机。
② 对角矩阵(diagonal matrix)是一个主对角线之外的元素皆为0的矩阵,常写为diag(a1, a2, ..., an)。
③ diag * W 把diag和W分开看。这就是个链式求导,diag是n维度的relu向量對n维度relu的输入的求导,向量对自身求导就是对角矩阵。

2. 梯度爆炸¶
① 当W元素值大于1时,层数很深时,连乘会导致梯度爆炸。


3. 梯度消失¶
① 蓝色为原函数,黄色为梯度函数。

② 当激活函数的输入稍微大一点时,它的导数就变为接近0,连续n个接近0的数相乘,最后的梯度就接近0,梯度就消失了。


4. 总结¶

1. 训练更稳定¶




① 假设权重是独立的同分布,均值为0。
② 假设输入与权重是相互独立的。







2. 总结¶
