权重衰减(Weight Decay)

权重衰减(weight decay)等价于 $L2$ 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使得学出的模型参数值较小,是应对过拟合的常用手段。我们先描述 $L2$ 范数正则化,再解释它为何与权重衰减等价。

$L2$ 正则化就是在代价函数后面再加上一个正则化项:

$C_0$ 代表原始的代价函数,后面那一项就是 $L2$ 正则化项,$\lambda$ 就是正则项系数。

我们对权重和bias求导如下:

权重和偏差更新如下:

可以发现 $L2$ 正则化对b的更新没有影响,但是对 $w$ 的更新有影响。现在 $w$ 前面系数为 $1-\frac{\eta \lambda}{n}$,因为 $\eta\; \lambda \; n$ 都是正的,它的效果是减小 $w$,这也就是权重衰减(weight decay)的由来。

持续技术分享,您的支持将鼓励我继续创作!