权重衰减 · 深度学习 03

关键字深度学习权重衰减正则化参数学习

摘要 —— 本文档介绍了正则化方法。正则化是通过给目标函数(loss)加上惩罚想来实现的。

应对过拟合的方法是正则化。以二维线性回归问题为例,默认的均方误差为 $$ l(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg)^2, $$ 若加上 $L_2$ 范数惩罚项,则得到新损失函数: $$ l(w_1, w_2, b) + \frac{\lambda}{2n} \Vert \vec{w} \Vert^2. $$ $\vec{w}$ 的更新公式变为 $$ w_1 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_1^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg) $$ $$ w_2 \leftarrow \bigg(1 - \frac{\eta \lambda}{|\mathcal{B}|} \bigg) w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_2^{(i)} \bigg( x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)} \bigg), $$ 这相当于是令权重先自乘小于 $1$ 的数,再减去不含惩罚项的梯度。因此,$L_2$ 范数正则化又叫权重衰减。

转载申请

本作品采用 知识共享署名 4.0 国际许可协议 进行许可, 转载时请注明原文链接。您必须给出适当的署名,并标明是否对本文作了修改。

您也可以通过下方按钮直接分享本页面:


发表评论

登录以发表评论

最新评论


Designed & written by Hailiang Zhao.
hliangzhao.cn. Copyright © 2021 - 2022 | 浙ICP备2021026965号-1
Manage