权重衰减 · 深度学习 03

Hailiang Zhao | 2021/08/24

Categories: math Tags: deep-learning optimization weight-decay

应对过拟合的方法是 正则化。以二维线性回归问题为例,默认的均方误差为 $$ l(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg)^2, $$ 若加上 $L_2$ 范数惩罚项,则得到新损失函数: $$ l(w_1, w_2, b) + \frac{\lambda}{2n} \Vert \vec{w} \Vert^2. $$ $\vec{w}$ 的更新公式变为 $$ w_1 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_1^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg) $$ $$ w_2 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_2^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg), $$ 这相当于是 令权重先自乘小于 $1$ 的数,再减去不含惩罚项的梯度。因此,$L_2$ 范数正则化又叫权重衰减。

转载申请

本作品采用 知识共享署名 4.0 国际许可协议 进行许可,转载时请注明原文链接。您必须给出适当的署名,并标明是否对本文作了修改。