别着急，坐和放宽

关于关于本站关于我关于此项目

更多时间线友链监控

联系写留言发邮件 GitHub

© 2020-2025 莫叶. | RSS | 站点地图 | | Stay hungry. Stay foolish.

Powered by Mix Space&. | 浙 ICP 备 2024104483 号 |

摘要

权重衰退通过L2正则项控制模型参数的大小，避免过拟合。正则项权重是一个超参数，一般设置在优化器中，通常为0.001。

这篇文章上次修改于 2024 年 8 月 9 日星期五，可能部分内容已经不适用，如有疑问可询问作者。

阅读此文章之前，你可能需要首先阅读以下的文章才能更好的理解上下文。

深度学习-李沐-第四节-模型选择、⽋拟合和过拟合
深度学习-李沐-第四节-数值稳定性与参数初始化
深度学习-李沐-第四节-Dropout暂退法

使用社交账号登录

Loading...

Loading...

Loading...

Loading...

Loading...

深度学习-李沐-第四节-权重衰退

2022 年 8 月 16 日星期二(已编辑)

2

深度学习-李沐-第四节-权重衰退

权重衰退

一种常见的处理过拟合的方法。

使用均方范数作为硬性限制

控制模型容量的两种方式：参数的数量、参数的选择范围。 该方法是通过限制参数值的选择范围，来控制模型容量的。

∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b，小的θ意味着更强的正则项。这种方法很少用，一般转化为下面这种柔性限制。

使用均方范数作为柔性限制

参数更新法则

一般来说，ηλ比1要小，和之前参数更新公式相比，每次更新的时候，先把当前的权重wt乘以一个小于1的数，把wt的值缩小了一点点，再沿着梯度的反方向走一点点，所以在深度学习通常叫做权重衰退。

权重衰退通过L2正则项使得模型参数不会过大，从而控制模型复杂度。
正则项权重是控制模型复杂度的超参数，一般在深度学习框架中的优化器（SGD等）中可以设置Weight Decay：λ的值，通常0.001，不会选到1等很大的数值。