当前位置：首页 > news >正文

封面型网站布局网站开发电脑配置

news 2025/12/27 9:30:05

封面型网站布局,网站开发电脑配置,wordpress站点后台,如何做盗版视频网站ResNet论文逐段精读【论文精读】这是李沐博士论文精读的第二篇论文#xff0c;这次精读的论文是ResNet。ResNet 是 CVPR2016 的最佳论文#xff0c;目前谷歌学术显示其被引用数已经达到了90000。 ResNet论文链接为#xff1a;https://arxiv.org/abs/1512.03385。 1.第一遍 … ResNet论文逐段精读【论文精读】这是李沐博士论文精读的第二篇论文这次精读的论文是ResNet。ResNet 是 CVPR2016 的最佳论文目前谷歌学术显示其被引用数已经达到了90000。 ResNet论文链接为https://arxiv.org/abs/1512.03385。 1.第一遍首先是论文标题论文标题中文意思是深度残差学习的图像识别。论文标题指出了关键词Residual Learning残差是数理统计中常用到的一个词。下面是论文的作者本篇论文作者全部为中国学者这四个人现在都很有名了。一作也是 CVPR 2009 的最佳论文获得者目前在Facebook AI Research任研究科学家二作、三作当时是微软亚洲研究院的实习生目前二作在旷视工作三作在蔚来工作通信作者目前是旷视研究院院长。下面是论文摘要摘要总共11句话。第1句话就提出了论文要解决的问题更深的神经网络很难训练。第2、3句介绍了论文使用的方法提出了一个残差学习框架使深的神经网络更容易训练网络中的层对层输入的残差函数进行学习。4-7句为在ImageNet上的比赛结果论文设计的152层网络取得了3.57%的错误率获得了比赛第一名。第8句作者在CIFAR-10 数据集上进行了100层和1000层网络的实验分析。9-11句其它比赛结果在ILSVRC和COCO 2015比赛上获得了ImageNet检测任务定位任务COCO检测和分割任务的第一名。由于 CVPR2016 要求提交论文正文在8页以内从摘要可以看出作者做的实验是比较多的因此本篇论文没有结论部分不建议大家学习。在读第一遍时可以顺带看看论文中重要的图和表如论文第一页中的图可以看到更深的神经网络反而有更高的错误率这也是作者要解决的问题。第一遍读完后可以决定后面是否再读第二遍论文鉴于本篇论文的实验结果如此厉害因此我们进行第二遍阅读。 2.第二遍首先是Introduction部分总共9段。第一段介绍故事背景第二段引出第一个问题堆叠更多的层数以后网络是否学习效果更好但是堆叠更多的层后往往会遇到梯度爆炸、梯度消失问题会从一开始就阻止收敛。好在这个问题可以通过归一化初始化或中间层归一化来解决。第三段介绍了另一个问题当网络开始收敛时往往会出现退化现象。随着网络深度的增加准确率趋近饱和然后迅速下降。意外的是这不是由于过拟合造成的更深的模型反而会有更高的训练误差如图1所示。第4-6段为了解决深度学习的退化问题作者提出了深度残差学习框架让网络层去拟合残差映射。如果我们想要得到的映射为 H(x)\mathcal{H}(\mathbf{x})H(x)则我们让添加的非线性网络层去拟合残差映射 F(x):H(x)−x\mathcal{F}(\mathbf{x}):\mathcal{H}(\mathbf{x})-\mathbf{x}F(x):H(x)−x则原始的映射就可以写成 F(x)x\mathcal{F}(\mathbf{x})\mathbf{x}F(x)x。残差映射的实现可以通过图2所示的连接块实现跳跃连接是一个恒等映射没有引入额外的参数和计算复杂度整个网络很容易实现最初ResNet是使用Caffe库实现的。后面三段是本文设计的网络在ImageNet、CIFAR-10、COCO数据集上的实验结果大量的实验结果表明作者设计的残差学习框架的通用性一方面不仅使得网络更容易优化另一方面随着网络深度的增加网络复杂度并没有明显增加准确率却会提高很多。下面是Deep Residual Learning部分。这里要理解各种ResNet是如何形成的。网络设计原则为i对于相同的输出特征图尺寸卷积层具有相同数量的卷积核ii如果特征图尺寸减半则卷积核数量加倍以便保持每层的时间复杂度。通过步长为2的卷积层直接执行下采样。下面以ResNet-34为例进行介绍首先是第一个卷积层卷积核大小为 7×77\times77×7卷积核个数为64步长为2然后是池化层3×33\times33×3 最大池化层步长为2接着是三个残差连接块每一个连接块由两层卷积网络组成卷积核大小为 3×33\times33×3卷积核个数为64然后是四个残差连接块每一个连接块由两层卷积网络组成卷积核大小为 3×33\times33×3卷积核个数为128接着是六个残差连接块每一个连接块由两层卷积网络组成卷积核大小为 3×33\times33×3卷积核个数为256然后是三个残差连接块每一个连接块由两层卷积网络组成卷积核大小为 3×33\times33×3卷积核个数为512 最后是全局平均池化层和具有softmax的1000维度的全连接层这样整个网络包含 11(3463)×23411(3463)\times23411(3463)×234 个卷积层。尽管网络深度相比VGG-19要深了许多但是FLOPs只是VGG-19的18%左右。从表1可以看到 ResNet-18和ResNet-34具有相同的残差连接块每个连接块包含两个卷积层。而ResNet-50/101/152的每个连接块包含3个卷积层。作者把这种连接块称为bottleneck如下图所示这里主要使用了1×11\times11×1的卷积核主要是用于匹配特征图维度以及从实践出发能够承担的起训练时间。之前听过论文通信作者的一个报告据说这个网络训练时间为一个月具体一个月是指纯训练还是指训练测试调参就不太清楚了。然后是Implementation部分作者是参考AlexNet和VGG来进行训练。首先对图像的短边进行尺度扩大扩大到 [256,480][256,480][256,480]然后和AlexNet一样随机选择 224×224224\times224224×224 大小的图案。作者在这里使用到了batch normalization (BN) 技术然后作者按照自己的另一篇文章来进行初始化并从零开始训练如果对作者之前工作不了解的话还要再去看作者的文章了解如何对网络初始化对第一次看到这篇文章的读者来说增加了阅读难度不过作者可能也是因为受到篇幅影响不想再过多介绍。梯度下降使用了SGDmini-batch大小为256总共进行了 60×10460\times10^460×104 次迭代目前很少有这样的写法了都是介绍训练了多少个epochs。为了得到最好的实验结果作者在多个尺度上进行评估然后取平均分。最后是Experiments部分从论文中可以看到作者做了大量实验。首先是ImageNet Classification首先评估了plain-18/34两个网络从表2可以看到plain-34网络比plain-18有更高的错误率从图4左图也可以看到在训练过程中出现了退化现象随着网络深度的增加训练误差反而变大。作者在论文中解释到退化现象应该不是梯度消失引起的因为整个训练使用了BN来训练也查验了反向传播时梯度幅值也是正常的作者怀疑可能是因为更深的网络有着更低的收敛速度影响着训练误差的减小这个问题未来会进一步研究。接着是ResNet-18/34两个网络的评估从表2和图4右图可以观察到三个现象网络越深训练误差反而越小退化问题可以通过残差学习得到解决与plain-34网络相比训练误差下降了3.5%随着网络深度的不断增加网络性能进一步提高与palin-18/34网络相比残差网络收敛速度更快然后是恒等跳跃连接和投影跳跃连接的对比可以看到三种连接都有助于提高网络性能但是为了不增加网络结构的复杂度作者这里主要选择恒等跳跃连接进行后续的实验。下面是ResNet-50/101/152网络的评估首先可以看到尽管网络深度不断增加但是复杂度依然低于VGG-16/19。随着网络深度的不断增加错误率不断下降同时在训练过程中也没有出现退化现象在单个模型上取得了4.49%的错误率在ImageNet2015比赛上通过集成6个不同的模型取得了3.57%的错误率这是一个很了不起的结果因为ImageNet数据集在人工标注时可能就会有1%的错误率。最后总结一下ResNet解决了网络训练退化的问题找到了可以训练更深网络的办法目前已经成为了深度学习中最重要的一种模型。在视频的最后李沐博士从梯度的角度对残差学习理论进行了阐述我这里使用吴恩达老师的讲义来进一步补充。假设有一个很大的神经网络其输入为 X\mathbf{X}X输出为 a[l]{a}^{[l]}a[l] 。给这个神经网络再添加残差块输出为a[l2]{a}^{[l2]}a[l2]。假设整个网络中都选用 ReLU 作为激活函数因此输出的所有激活值都大于等于0。a[l]{a}^{[l]}a[l] 与 a[l2]{a}^{[l2]}a[l2] 之间的函数关系为 z[l1]W[l1]a[l]b[l1]a[l1]g(z[l1])z[l2]W[l2]a[l1]b[l2]a[l2]g(z[l2]a[l])z^{[l1]} W^{[l1]}a^{[l]} b^{[l1]}\\ a^{[l1]} g(z^{[l1]}) \\ z^{[l2]} W^{[l2]}a^{[l1]} b^{[l2]}\\ a^{[l2]} g(z^{[l2]} a^{[l]}) z[l1]W[l1]a[l]b[l1]a[l1]g(z[l1])z[l2]W[l2]a[l1]b[l2]a[l2]g(z[l2]a[l]) 当发生梯度消失时即残差块网络没有学到有用信息W[l2]≈0W^{[l2]}\approx0W[l2]≈0b[l2]≈0b^{[l2]}\approx0b[l2]≈0则有 a[l2]g(a[l])ReLU(a[l])a[l]a^{[l2]} g(a^{[l]}) ReLU(a^{[l]}) a^{[l]} a[l2]g(a[l])ReLU(a[l])a[l] 因此残差块的使用不会降低网络性能。而如果没有发生梯度消失时训练得到的非线性关系会使得网络性能进一步提高。关于残差网络的理论更深解释也有很多相关的研究感兴趣的读者可以查阅对应文献。 [双语字幕]吴恩达深度学习deeplearning.ai

查看全文

http://wiki.neutronadmin.com/news/240163/