当前位置：首页 > news >正文

重庆微信开发网站建设做网站都注意哪些东西

news 2025/12/27 18:10:18

重庆微信开发网站建设,做网站都注意哪些东西,黑马网站建设网站设计,做车身拉花的网站本文转载自公众号“夕小瑶的卖萌屋”#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门关注后#xff0c;回复以下口令#xff1a; 回复【789】 #xff1a;领取深度学习全栈手册#xff08;含NLP、CV海量综述、必刷论文解读#xff09; 回复【入群】#xf… 本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门关注后回复以下口令回复【789】领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集回复【0511】领取算法岗面试手册刷offer神器回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文前言众所周知无论在CV还是NLP中深度模型都离不开归一化技术Normalization。在CV中深度网络中一般会嵌入批归一化BatchNormBN单元比如ResNet而NLP中则往往向深度网络中插入层归一化LayerNormLN单元比如Transformer。为什么在归一化问题上会有分歧呢一个最直接的理由就是BN用在NLP任务里实在太差了相比LN此外BN还难以直接用在RNN中而RNN是前一个NLP时代的最流行模型。虽然有大量的实验观测表明NLP任务里普遍BN比LN差太多但是迄今为止依然没有一个非常严谨的理论来证明LN相比BN在NLP任务里的优越性。甚至连BN自身为什么work的问题都一直存在争议。早期对BN有效性的解释是其有助于缓解神经网络“内部协方差漂移”Internal Covariance ShiftICS问题。即后面的层的学习是基于前面层的分布来的只有前面一层的分布是确定的后面的层才容易学习到有效的模式然而由于前面的层的分布会随着batch的变化而有所变动导致了后面的层看来“前面一直在动我无法安心学习呀”。而BatchNorm这类归一化技术目的就是让每一层的分布稳定下来让后面的层可以在前面层的基础上安心学习知识。顾名思义BatchNorm就是通过对batch size这个维度归一化来让分布稳定下来。LayerNorm则是通过对Hidden size这个维度归一化来让某层的分布稳定。然而后来也有一些研究diss了这个解释说这个解释是错误或不充分的incorrect/incomplete[1]近期也有一些研究[2][3]表明BN之所以有助于训练深度神经网络是因为它可以让loss曲面变得更加平滑。Anyway这依然是一个未完全解开的老谜。除了BN之外LN也有同样的“为什么work”的终极问题。研究[4]表明LN在反向时有助于梯度的归一化。也有研究[5][6]表示LN的主要作用是在训练初期缓解梯度消失和爆炸的问题提升稳定性。所以说BN和LN本身的作用机理都没有完全搞清楚自然也很难去证明为什么BN在NLP数据上就不workLN就更work。不过近期小夕无意间刷到了一篇UC Berkeley的《Rethinking Batch Normalization in Transformers》[7]发现了一个比较有趣的实验结论并基于这个观测作者提出了一种针对NLP data确切说是Transformer改进的新的归一化方法叫幂归一化PowerNorm。后台回复【0407】获取论文PDF噢强上BN后的Transformer 作者这里做了一个实验为BN在NLP dataTransformer上不work提供了一个更加微观的观测证据。首先作者将Transformer中的LN都替换成了BN然后在CV和NLP两个任务上观测BN中的两个统计量即均值和方差及其他们的梯度和在训练过程中的稳定程度。上图中蓝色是ResNet20在Cifar-10做图像分类的结果橙色是TransformerBN在IWSLT14做翻译的结果。X轴是训练时间Y轴是基于batch的统计值和它对应的移动平均值的欧式距离。可以看到ResNet20在Cifar-10任务上统计量的震荡很小而使用BN的Transformer不仅震荡剧烈还有很极端的异常值这会导致和的统计不准确造成train/test不一致预测效果下降。基于这个有趣的观测结果作者这里针对性的提出了两点改进并将改进后的BN称之为幂归一化PowerNormPN。 PowerNorm 1. PN-V BN强制将数据转换成均值为0方差为1的正态分布但在数据本身均值方差剧烈震荡的情况下强制移动均值会起到不好的效果。因此作者提出了新的scale方式只强制数据有unit quadratic mean 这样针对batch的前向只需一个统计量反向也简化成一个梯度对比新的橙色和之前的蓝色发现震荡明显减小 2. Running Statistics in Training 从PN-V的改进可以看到虽然震荡减少了很多但还是有很多异常值。因此作者改用移动平均的方式计算但使用移动平均的话在求梯度时无法对之前所有求导因此作者用当前batch的统计量去近似感兴趣的同学可以看下论文中的推导。与LN的比较虽然如前所述难以说清楚在NLP data上LN比BN优越在哪里但是是容易说清楚PN对BN的优越性的毕竟PN的诞生就是基于BN在NLP data上的实验观测。那么问题来了PN和LN哪个更有效自然也没法直接在理论层面上进行比较所以作者跑了一把实验分别尝试了机器翻译和语言模型任务对于上述结果小夕也去paperwithcode网站查了一下目前IWSLT14的SOTA是36.3论文中的35.9可以排在第二的位置WMT14 En-De的SOTA是35论文中的30.1可以排在第五的位置WikiText-103的SOTA是10.8论文的结果排在第八名第位置。由于作者没有做其他优化看起来总体结果还是不错的当然PN在其他NLP data和任务上是否有效还有待进一步验证。由于BN和PN的统计量受batchsize的影响作者在消融实验中也探究了不同batchsize的效果可以看到PN在整体上还是优于LN的。总结由于深度学习的不可解释性归一化方法在网络中真正的作用和优劣一直是个谜。本文针对BN提供了一个新的研究角度通过对统计量及梯度的稳定性观测找到了BN为什么在NLP问题上不work的其中一个原因即数据分布的震荡和异常值导致train/test不一致。基于该观测证据作者对BN进行了对应的改进提出了更适合NLP data的幂归一化PowerNorm得到了优于原生BN的效果且在部分任务上超过了LN的表现。另外看到这里后相信会有很多小伙伴会关心BERTPN的效果。燃鹅众所周知要复现BERT的预训练过程是非常不可描述的所以作者这里没有给出相应实验也是合乎情理的。所以目前结构创新都不会用BERT去验证机器翻译和LM任务确实是常规benchmark。是否真正有用可能需要慢慢被大家用起来才知道。后台回复【0407】获取论文PDF噢本文转载自公众号“夕小瑶的卖萌屋”专业带逛互联网算法圈的神操作 -----》我是传送门关注后回复以下口令回复【789】领取深度学习全栈手册含NLP、CV海量综述、必刷论文解读回复【入群】加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群大V、顶会审稿人云集回复【0511】领取算法岗面试手册刷offer神器回复【0424】领取刷论文神器挖掘每日、每月必刷重磅论文夕小瑶的卖萌屋 _ 关注星标小夕带你解锁AI秘籍订阅号主页下方「撩一下」有惊喜哦参考文献 [1]Ali Rahimi. Nuerips 2017 test-of-time award presentation, December 2017: https://www.zachpfeffer.com/single-post/2018/12/04/Transcript-of-Ali-Rahimi-NIPS-2017-Test-of-Time-Award-Presentation-Speech[2]How does batch normalization help optimization?: https://papers.nips.cc/paper/7515-how-does-batch-normalization-help-optimization.pdf [3]PyHessian: Neural networks through the lens of the Hessian.: https://arxiv.org/pdf/1912.07145.pdf [4]Understanding and Improving Layer Normalization: https://arxiv.org/abs/1911.07013 [5]Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention: https://arxiv.org/abs/1908.11365 [6]Fixup Initialization: Residual Learning Without Normalization: https://arxiv.org/abs/1901.09321 [7]Rethinking Batch Normalization in Transformers: https://arxiv.org/abs/2003.07845 [8]详解深度学习中的NormalizationBN/LN/WN: https://zhuanlan.zhihu.com/p/33173246

查看全文

http://wiki.neutronadmin.com/news/89470/