relu和prelu

两个方面：

1.更好的拟合，但较小的过拟合风险

2.强健的初始化方法（纠正非线性）

研究：激活函数、训练的复杂性

初始化方法，帮助更好的收敛

在不同的channels，改变非线性激活函数。

额外参数的数量==channels的数量，相对于weights参数还是微不足道的。（所以造成过拟合的风险很小）

每一层的所有channels共享系数。

获取低级特征信息，使用少量有限的过滤器。（更加经济的方式）

随着深度的增加，激活函数变得更加非线性。（在浅层保留更多特征信息，在深层特征更具区分度）

初始化：核心思想是研究每层响应的变化

推导解释了标准差为0.01时，深度网络不能收敛，梯度消失。

解决输入信号没有归一化

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子

发表回复取消回复