relu和prelu

两个方面:

1.更好的拟合,但较小的过拟合风险

2.强健的初始化方法(纠正非线性)

研究:激活函数、训练的复杂性

 

初始化方法,帮助更好的收敛

在不同的channels,改变非线性激活函数。

额外参数的数量==channels的数量,相对于weights参数还是微不足道的。(所以造成过拟合的风险很小)

每一层的所有channels共享系数。

 

获取低级特征信息,使用少量有限的过滤器。(更加经济的方式)

随着深度的增加,激活函数变得更加非线性。(在浅层保留更多特征信息,在深层特征更具区分度)

初始化:核心思想是研究每层响应的变化

推导解释了标准差为0.01时,深度网络不能收敛,梯度消失。

解决输入信号没有归一化

 

 

 

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注