当前位置：首页 > news >正文

网站备份数据库有名的app开发公司

news 2026/1/14 2:28:00

网站备份数据库,有名的app开发公司,wordpress3.5.1漏洞,响应式网站建设论文标题《Deep Residual Learning for Image Recognition》撑起CV界半边天的论文Residual #xff1a;主要思想#xff0c;残差。作者何恺明#xff0c;超级大佬。微软亚研院属实是人才辈出的地方。初读摘要提问题#xff1a; 更深层次的神经网络更难训练。 …论文标题《Deep Residual Learning for Image Recognition》撑起CV界半边天的论文Residual 主要思想残差。作者何恺明超级大佬。微软亚研院属实是人才辈出的地方。初读摘要提问题更深层次的神经网络更难训练。提方案提出了残差网络解决深层网络训练的问题。这也就是本文的主题。用 reference 的残差函数替代了 unreferenced 的函数。概况主要内容通过实验证明残差的有效性。甚至在 CIFAR-10 上试到了 1000 层。秀成果低复杂度比 VGG 深 8 倍但复杂度更低。高精度在 ImageNet 测试集上实现了 3.57% 的误差在 COCO 目标检测数据集上获得了 28% 的相对改进结论这篇文章比较别致没有写结论。主要是受限于 CVPR 对论文篇幅的限制把最后一段给了目标检测而没有写结论。为啥不再单写一篇目标检测的文章。再读 Section 1 Introduction 第一段主题深度卷积好深度卷积神经网络好好就好在能很深第二段主题质疑“深就是好” 稍微深点就遇到了梯度消失/爆炸的问题这个问题通过初始化正则和中间正则解决第三段主题深反倒不好网络深了精度反而会下降深度深了之后训练误差和测试误差都上升了说明变差还不是过拟合的锅。第四段主题深带来的问题新添加的层是恒等映射identity mapping[TODO]按理说不应该更差但是现实就是优化不动。第五段主题引入残差学习框架让残差块拟合 F ( X ) H ( x ) − x F(X)H(x)-x F(X)H(x)−x而不是 H ( x ) H(x) H(x)最终再进行 F ( x ) x F(x)x F(x)x 。假设残差映射优于原始映射。第六段主题残差学习的实现不会使模型复杂化上述的 F ( x ) x F(x)x F(x)x 操作通过有捷径连接的前馈型神经网络实现。不会增加参数量和模型复杂度仍可以由 SGD 进行优化。第七段主题实验验证经过全面的实验显示残差网络更容易优化。残差网络可以从深度中获得精度增益。第八段主题超深层数探索在比较简单的 CIFAR-10 数据集上实验了超千层的模型。第九段主题再次展示成果有史以来最深。比 VGG 深但是复杂度更低。在 ImageNet 测试集上实现了 3.57% 的误差在 COCO 目标检测数据集上获得了 28% 的相对改进认为残差这一思想是通用的在其他视觉或非视觉问题都应该能够应用。 Section 2 Related Work 简单讲了和本文工作相关的方法。残差表示Residual Representations 对于矢量量化编码残差矢量比编码原始矢量更有效。良好的重构或预处理可以简化优化过程。捷径连接Shortcut Connections MLPs中对捷径连接的早期实践是添加从网络输入连接到输出的线性层。或使一些中间层直接连接到辅助分类器以解决梯度消失/爆炸。此外不同于 highway networks 中有时会关闭的门控函数本文模型没什么门。总是学习残差函数标识快捷键永远不会关闭所有信息始终都会被传递还需要学习其他残余函数。 Section 3 Deep Residual Learning Residual Learning 残差学习第一段残差映射不是像传统的那样让堆叠的层逼近 H(x)而是明确让这些层逼近残差函数 F(x) H(x)-x。根据万能近似定理来说两种形式都应能够渐近地逼近所需的函数但学习的难易程度有所不同。第二、三段残差的好处退化现象表明求解器在用多个非线性层逼近恒等映射时可能存在困难。通过残差学习的重构如果恒等映射是最佳的残差模块只需要拟合零映射。即使恒等映射不是最佳的后面的网络也只需要拟合前面网络的输出与期望函数的残差这比起恒等映射要容易。 Identity Mapping by Shortcuts 通过快捷方式进行恒等映射第一段残差块结构描述了图2实际就是再描述一遍残差车轱辘话来回说还是拟合 H(x)-x最后再加回 x用一下 Relu。第二段残差不增加复杂度残差没有引入额外的参数和计算复杂度深度宽度都一样这一点也提供了和不使用残差模型对比的条件控制变量。第三段恒等映射就足够了实验表明后面用恒等映射效果是最好的引入参数还会增加额外的复杂度。只有需要匹配维度的时候才会给恒等映射加上权重。第四段残差层数两层或者三层残差就足够了但是不能只有一层只有一层就和线性层很像了效果不好。第五段残差适用于卷积上面为了方便而使用的全连接表示实际上可以表示卷积层在两个特征映射上逐个通道执行逐元素加法。 Network Architectures 网络体系结构对比了带残差的和不带残差的无残差网络类似VGG网络用 3 × 3 3\times 3 3×3 卷积每个块里卷积层数一致大小减半时通道加倍通过步长为2的卷积层执行下采样以全局平均池化层和带有softmax的1000路全连接层结束用了残差之后甚至参数量比VGG还要少VGG好臃肿。残差网络其余的一模一样只是带上了残差。当维度增加时下采样有两种方案不够的用0填充此方案不必引入新的参数做 1 × 1 1\times 1 1×1 的卷积层卷积 Implementation 实施具体试验方案调整图像大小随机采样其较短的一面以进行比例增强从图像或其水平翻转中随机采样224×224作物本文主要进行标准的10种裁剪测试方法并减去每像素均值本文采用了多尺度裁剪和特征融合使用标准色彩增强在每次卷积之后和激活之前采用批归一化而不使用 dropout使用最小批量为256的SGD学习率从0.1开始当误差平稳时除以10 Section 4 Experiments ImageNet Classification ImageNet分类本节主要讲了实验结果介绍数据集ImageNet 包含1000个类。在128万张训练图像上训练模型并在50k验证图像上进行评估。在测试服务器报告的10万张测试图像上获得最终结果评估了top-1和top-5的错误率普通网络和残差网络对比普通网络较深的34层普通网络比较浅的18层普通网络具有更高的验证误差 18-layer 错误率是 27.94%34-layer 错误率是 28.54% 出现了退化现象即使18层普通网络的解空间是34层普通网络的子空间在整个训练过程中34层普通网络具有较高的训练误差。不是梯度问题导致的普通网络也使用了BN有非零方差。数据不会挤在一起。前向传播反向传播也都正常。更多轮次的迭代也不能解决钉死这是退化而不是别的事儿。猜测我们推测深层的普通网络的收敛速度可能呈指数级降低这会影响到减少训练误差。将来将研究这种优化困难的原因。残差网络再次强调已经控制变量了除了加了残差在参数量之类别的方面都一样34 层 ResNet 表现出较低的训练误差验证了残差学习在极深系统上的有效性。18-layer 错误率是 27.88%34-layer 错误率是 25.04%此外带残差的网络收敛更快。恒等映射和投影短链接对比三个方案 A零填充短链接用于增加维度并且所有短链接都是无参数的与表2和右图4相同B投影短链接用于增加维度其他短链接是恒等的。C所有短链接都是投影。结果 B比A稍好。作者认为是因为A中的零填充维度没有残差学习。C比B好一点作者认为是由于投影快捷方式引入的额外参数。结论 A/B/C之间的细微差异表明投影捷径对于解决退化问题并不是必不可少的。为了那一点精度增加参数量可能得不偿失因此本文的其余部分中不会使用选项C来减少内存/时间的复杂性和模型大小。 Deeper Bottleneck Architectures 本小节主要是介绍引入Bottleneck 结构使网络更深。思想先降维后升维使用恒等映射因为短链接连接到两个高维端。如果用投影参数和复杂度会翻倍更深的残差网络 50层ResNet 替换了具有3层瓶颈块的34层网形成了50层ResNet使用选项B来增加尺寸。该模型具有38亿个FLOP。 101层和152层ResNet 通过使用更多的3层块来构建101层和152层ResNet表1。值得注意的是尽管深度显着增加但152层ResNet113亿个FLOP的复杂度仍低于VGG-16/19网153.96亿个FLOP。引入残差之后更深确实更好 50/101/152层ResNet比34层ResNet准确度高。没有观察到退化问题因此深度的增加大大提高了精度。所有评估指标都证明了深度的好处 CIFAR-10 and Analysis 本节主要是在更简单的CIFAR-10数据集上测试把深度拉到了恐怖的1202层。使用简单架构不为刷榜只为极致的深网络输入为32×32图像仍然是每像素减去均值。分别在大小为{32,16,8}的特征图上使用具有3×3卷积的6n层堆栈每个特征图尺寸为2n层卷积核的数量分别为{16,32,64}通过步幅为2的卷积执行二次采样仍然以全局平均池10路全连接层和softmax结尾shortcut用A方案这样最简单结果依然是普通网络会退化引入残差则会越深越好 110层残差网络的特殊处理先使用0.01的学习率来预热训练直到训练误差低于80约400次迭代返回0.1的学习率继续训练三读未完待续。个人感想本文的实验设计非常透彻通过观察各个细节先是排除了是过拟合的影响再排除了梯度爆炸/消失的影响从而确定了深层网络的问题在于模型退化。再通过严格的控制变量的比较有无残差的模型360度无死角的验证了残差就是能解决退化问题值得学习。数据和模型都是有上限的数据本身决定了问题上限这个数据的最优结果就在那里摆着模型只是在不断逼近这个上限。模型结构决定了模型的上限调参也就是再不断逼近这个上限。不加残差的模型就算调参调的再好也会撞上退化这堵墙引入残差才是真正的提高了模型的上限。感觉这篇论文的参考文献就像论文阅读指南都是值得一读的精品论文。

查看全文

http://www.yutouwan.com/news/476980/