应对过拟合的方法是 正则化。以二维线性回归问题为例,默认的均方误差为
$$ l(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg)^2, $$
若加上 $L_2$
范数惩罚项,则得到新损失函数:
$$ l(w_1, w_2, b) + \frac{\lambda}{2n} \Vert \vec{w} \Vert^2. $$
$\vec{w}$
的更新公式变为
$$ w_1 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_1^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg) $$
$$ w_2 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_2^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg), $$
这相当于是 令权重先自乘小于 $1$
的数,再减去不含惩罚项的梯度。因此,$L_2$
范数正则化又叫权重衰减。
转载申请
本作品采用 知识共享署名 4.0 国际许可协议 进行许可,转载时请注明原文链接。您必须给出适当的署名,并标明是否对本文作了修改。