两个方面:
1.更好的拟合,但较小的过拟合风险
2.强健的初始化方法(纠正非线性)
研究:激活函数、训练的复杂性
初始化方法,帮助更好的收敛
在不同的channels,改变非线性激活函数。
额外参数的数量==channels的数量,相对于weights参数还是微不足道的。(所以造成过拟合的风险很小)
每一层的所有channels共享系数。
获取低级特征信息,使用少量有限的过滤器。(更加经济的方式)
随着深度的增加,激活函数变得更加非线性。(在浅层保留更多特征信息,在深层特征更具区分度)
初始化:核心思想是研究每层响应的变化
推导解释了标准差为0.01时,深度网络不能收敛,梯度消失。
解决输入信号没有归一化