成都建设网站那家好,广州站在哪个区,投资公司排名,自助网站建设哪家效益快在DL中#xff0c;L1和L2正则化经常被使用到#xff0c;因为大于1L的正则化都是凸优化的问题#xff0c;是个简单问题#xff0c;可以被解决。
首先说正则的意义#xff1a;
一切可以缓解过拟合的方法#xff0c;都可以被叫做正则化
我最开始理解正则化的时候就是看lh…在DL中L1和L2正则化经常被使用到因为大于1L的正则化都是凸优化的问题是个简单问题可以被解决。
首先说正则的意义
一切可以缓解过拟合的方法都可以被叫做正则化
我最开始理解正则化的时候就是看lhy老师所理解的防止模型w过大导致过拟合为什么
因为w过大之后测试或者验证的时候你如果引入了噪声噪声也会被放大我们不要那么敏感引入了正则项也就是w的欧式距离(L2)或者曼距离l1。这样就考虑loss函数的时候你也必须看距离也要小。
现在看来为什么后面加入的是lambad/2 *l2的范数
要让w在一个可行域的范围之类,b只是平移的结果所以不考虑 这样就可以限制距离范围
这里就是在约束w的距离不要太大 而这里求函数的极值引入了拉格朗日乘数法来求解lambad就是拉格朗日乘数法的系数。
这样一切都好解释绿色代表距离红色代表以前loss的线 但是和我们加入的正则项不同因为这里只是多了个常数项超参数只有c我们可以更简单的理解为我们求导求极值其实w是相同的 因为我们加的就是没有常数项相当于很多个圆很多个交点不对我们超参数就变成了lambad这张图告诉我们左图L2正则化带来的是w的衰退而右图就是L1带来的不仅是衰退还有稀疏性因为调整lambad甚至可以让一个feauture不起作用不用考虑
L1调整lambad可以简化问题可以带来稀疏性 不用担心这样做会以为本来的w很大结果故意限制了w的大小带来的偏差因为本来就可以等价因为很多w和b的值都能够成为最值我们要做的 限制他的大小罢了 带来的偏差只是图中的d罢了而不是到中心的距离
这是目前我对l1l2的理解
参考lm wmt lhy老师