网站建设客户好评信,网络营销以什么为中心,手机网站怎么做301,招聘网58同城招聘一、说明 在~10年的深度学习中#xff0c;进步是多么迅速#xff01;早在 2012 年#xff0c;Alexnet 在 ImageNet 上的准确率就达到了 63.3% 的 Top-1。现在#xff0c;我们超过90%的EfficientNet架构和师生训练#xff08;teacher-student#xff09;。
二、第一阶段 …一、说明 在~10年的深度学习中进步是多么迅速早在 2012 年Alexnet 在 ImageNet 上的准确率就达到了 63.3% 的 Top-1。现在我们超过90%的EfficientNet架构和师生训练teacher-student。
二、第一阶段 见文CNN成长路从AlexNet到EfficientNet01
三、第二阶段近代CNN
3.1 DenseNet Densely Connected Convolutional Networks 2017 跳过连接是一个非常酷的主意。我们为什么不跳过连接所有内容 Densenet是将这种想法推向极端的一个例子。当然与 ResNets 的主要区别在于我们将连接而不是添加特征图。 因此其背后的核心思想是功能重用这导致了非常紧凑的模型。因此它比其他CNN需要更少的参数因为没有重复的特征图。 好吧为什么不呢嗯......这里有两个问题 特征映射的大小必须相同。 与所有先前特征映射的串联可能会导致内存爆炸。 为了解决第一个问题我们有两个解决方案 a 使用具有适当填充的 conv 图层来保持空间暗淡或 b 仅在称为密集块的块内使用密集跳过连接。 示例图像如下所示 过渡层可以使用平均池化对图像尺寸进行下采样。
为了解决第二个问题即内存爆炸特征图通过 1x1 convs 减少一种压缩。请注意我在图中使用了 K但 densenet 使用一个一个/2KFe a tmaps/2
此外当不使用数据增强时它们在每个卷积层后添加一个 p0.2 的 dropout 层。
3.2 增长率
更重要的是还有一个参数控制整个架构的特征图数量。这是增长率。它指定每个超密集卷积层的输出特征。鉴于k0初始特征图和k增长率可以计算出每层输入特征图的数量l如
.在框架中数字 k 是 4 的倍数称为瓶颈大小 bn_size。 最后我在这里引用DenseNet在火炬视觉中最重要的论点作为总结
import torchvisionmodel torchvision.models.DenseNet(growth_rate 16, # how many filters to add each layer (k in paper)block_config (6, 12, 24, 16), # how many layers in each pooling blocknum_init_features 16, # the number of filters to learn in the first convolution layer (k0)bn_size 4, # multiplicative factor for number of bottleneck (1x1 cons) layersdrop_rate 0, # dropout rate after each dense conv layernum_classes 30 # number of classification classes
)print(model) # see snapshot below 在“密集”层快照中的密集层5和6内部有一个瓶颈1x1层将通道减少到bn_size∗growth_rate64bn_size∗growth_rate64在我们的例子中。否则输入通道的数量将激增。如下图所示每层加起来16growth_rate16growth_rate渠道。 在实践中我发现基于 DenseNet 的模型训练速度很慢但由于功能重用与具有竞争力的模型相比参数很少。 尽管DenseNet被提议用于图像分类但它已被用于特征可重用性更为关键的领域的各种应用即分割和医学成像应用。从 Papers with Code 借来的饼图说明了这一点 图片来自带有代码的论文 在 2017 年的 DenseNet 之后我只发现 HRNet 架构很有趣直到 2019 年 EfficientNet 问世
3.3 大迁移Big Transfer-BiT一般视觉表示学习2020 尽管已经提出了许多ResNet的变体但最新和最著名的是BiT。大转移BiT是一种可扩展的基于ResNet的模型用于有效的图像预训练[5]。 他们基于 ResNet3 开发了 152 个 BiT 模型小型、中型和大型。对于BiT的大变化他们使用ResNet152x4这意味着每层都有4倍的通道。他们在比imagenet更大的数据集中对模型进行了一次预训练。最大的模型是在疯狂庞大的JFT数据集上训练的该数据集由300M标记的图像组成。 该架构的主要贡献是规范化层的选择。为此作者用组归一化GN和权重标准化WS取代了批次归一化BN。 图片来源Lucas Beyer和Alexander Kolesnikov。源 为什么因为第一个BN的参数均值和方差需要在预训练和转移之间进行调整。另一方面GN 不依赖于任何参数状态。另一个原因是 BN 使用批处理级统计信息这对于像 TPU 这样的小型设备的分布式训练变得不可靠。分布在 4 个 TPU 上的 500K 批次意味着每个工人有 8 个批次这并不能很好地估计统计数据。通过将规范化技术更改为 GNWS它们避免了工作线程之间的同步。 显然扩展到更大的数据集与模型大小密切相关。 性能与更多和多种模型。 资料来源亚历山大·科列斯尼科夫等人2020 在此图中说明了与数据并行扩展体系结构的重要性。ILSVER是具有1M图像的Imagenet数据集ImageNet-21K具有大约14M图像JFT 300M 最后这种大型预训练模型可以微调到非常小的数据集并获得非常好的性能。 性能与更多和多种模型。 资料来源亚历山大·科列斯尼科夫等人2020 在 ImageNet 上每个类有 5 个示例将 3 倍扩大在 JFT 上预训练的 ResNet-50 x3 实现了与 AlexNet 相似的性能 3.4 EfficientNet重新思考卷积神经网络的模型缩放2019 EfficientNet是关于工程和规模的。它证明如果您仔细设计架构则可以使用合理的参数获得最佳结果。 图片来源Mingxing Tan和Quoc V. Le 2020。 来源EfficientNet重新思考卷积神经网络的模型缩放
该图演示了 ImageNet 精度与模型参数。 令人难以置信的是EfficientNet-B1比ResNet-7小6.5倍快7.152倍。 3.5 个性化升级 让我们了解这是如何实现的。 有了更多的层深度人们可以捕获更丰富和更复杂的特征但这样的模型很难训练由于梯度消失 更广泛的网络更容易训练。它们往往能够捕获更细粒度的特征但很快就会饱和。 通过训练更高分辨率的图像卷积神经网络理论上能够捕获更细粒度的细节。同样对于相当高的分辨率精度增益会降低 作者没有找到最好的架构而是建议从一个相对较小的基线模型开始。F并逐渐扩展它。 这缩小了设计空间。为了进一步限制设计空间作者将所有层限制为具有恒定比率的均匀缩放。这样我们就有了一个更易于处理的优化问题。最后必须尊重我们基础设施的最大内存和 FLOP 数量。 下图很好地演示了这一点 图片来源Mingxing Tan和Quoc V. Le 2020。来源EfficientNet重新思考卷积神经网络的模型缩放 w是宽度d深度以及r分辨率缩放因子。通过缩放一个它们中只有一个会在一个点上饱和。我们能做得更好吗
3.5 复合缩放 因此让我们同时放大网络深度更多层、宽度每层更多通道、分辨率输入图像。这称为复合缩放。
为此我们必须在缩放过程中平衡上述所有维度。在这里它变得令人兴奋。 dαφ wβφ rγφ 这样α⋅β2⋅γ2≈2给定所有αβγ1
现在φ控制所有所需的尺寸并将它们缩放在一起但不能相等。αβγ告诉我们如何将额外的资源分配到网络。
注意到什么奇怪的东西了吗β和γ在约束中平方。 原因很简单网络深度加倍将使 FLOPS 翻倍但宽度或输入分辨率加倍将使 FLOPS 增加四倍。通过这种方式我们类似于卷积这是基本的构建块。 基线架构是使用神经架构搜索找到的因此它可以优化准确性和FLOPS称为EfficientNet-B0。 还行很酷。剩下的就是定义αβγ和φ. 修复φ1假设还有两次可用的资源并执行网格搜索αβγ.EfficientNet-B0的最佳获取值是α1.2β1.2γ1.15 修复αβγ并扩大规模φ关于硬件FLOP 内存 在我看来理解复合缩放有效性的最直观方法与 ImageNet 上相同基线模型 EfficientNet-B0 的单个缩放相当 图片来源Mingxing Tan和Quoc V. Le 2020。来源EfficientNet重新思考卷积神经网络的模型缩放
3.6 与吵闹的学生进行自我训练改进了图像网络分类2020 年 不久之后使用了迭代半监督方法。它通过300亿张未标记的图像显着提高了Efficient-Net的性能。作者称培训计划为“嘈杂的学生培训” [8]。它由两个神经网络组成称为教师和学生。迭代训练方案可以用 4 个步骤来描述 在标记的图像上训练教师模型 使用老师在300M未标记的图像上生成标签伪标签) 在标记图像和伪标记图像的组合上训练学生模型。 从步骤 1 开始迭代将学生视为教师。重新推断未标记的数据并从头开始培训新学生。 新学生模型通常大于教师模型因此可以从更大的数据集中受益。此外在训练学生模型时添加了明显的噪声因此它被迫从伪标签中学习。 伪标签通常是软标签连续分布而不是硬标签独热编码。 此外辍学和随机深度等不同的技术被用来训练新生[8]。 图片来源Xizhe Xie et al. 来源Noisy Student 的自我训练改进了 ImageNet 分类 在步骤 3 中我们使用标记和未标记的数据联合训练模型。未标记的批大小在第一次迭代中设置为标记批大小的 14 倍在第二次迭代中设置为 28 倍。
3.7 元伪标签 2021 动机如果伪标签不准确学生不会超过老师。这在伪标记方法中称为确认偏差。 高层次的思想设计一个反馈机制来纠正教师的偏见。
观察结果来自伪标签如何影响学生在标记数据集上的表现。反馈信号是训练教师的奖励类似于强化学习技术。 Hieu Pham等人2020年。来源元伪标签 这样教师和学生就得到了共同的训练。教师从奖励信号中了解学生在来自标记数据集的一批图像上的表现。
3 总结和概括 那里有很多凸网我们可以通过查看下表来总结它们
型号名称参数数量 [百万]图像网前 1 名精度年亚历克斯网60 米63.3 %2012盗梦空间 V15 米69.8 %2014VGG 16138 米74.4 %2014VGG 19144 米74.5 %2014盗梦空间 V2112 米74.8 %2015瑞思网-5026 米77.15 %2015瑞思网-15260 米78.57 %2015盗梦空间 V327 米78.8 %2015密集网-1218 米74.98 %2016密集网-26422.77.85 %2016BiT-L ResNet928 米87.54 %2019嘈杂学生高效网-L2480 米88.4 %2020元伪标签480 米90.2 %2021 您可以注意到DenseNet模型的紧凑性。或者最先进的EfficientNet有多大。更多的参数并不总是能保证更高的精度正如您在BiT和VGG中看到的那样。 在本文中我们提供了最著名的深度学习架构背后的一些直觉。话虽如此继续前进的唯一方法就是练习从火炬视导入模型并根据您的数据对其进行微调。它是否比从头开始训练提供更好的准确性 下一步是什么使用深度学习为计算机视觉系统提供可靠而全面的方法。试一试使用折扣代码 aisummer35 从您最喜欢的 AI 博客中获得独家 35% 的折扣。使用折扣代码 aisummer35 从您最喜欢的 AI 博客中获得独家 35% 的折扣。如果您更喜欢视觉课程Andrew Ng的卷积神经网络是迄今为止最好的课程。 4 引用
[1] Krizhevsky A. Sutskever I. Hinton G. E. 2017.使用深度卷积神经网络进行图像网络分类。ACM的通讯60684-90。
[2] Simonyan K. Zisserman A. 2014.用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv1409.1556。
[3] 塞格迪 C. 刘 W. 贾 Y. Sermanet P. Reed S. Anguelov D. ...Rabinovich A. 2015.更深入地进行卷积。在IEEE计算机视觉和模式识别会议记录中第1-9页。
[4] He K. Zhang X. Ren S. Sun J. 2016.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集第770-778页。
[5] Kolesnikov A. Beyer L. Zhai X. Puigcerver J. Yung J. Gelly S. Houlsby N. 2019.大迁移位一般视觉表示学习。arXiv预印本arXiv1912.1137062
[6] Huang G. Liu Z. Van Der Maaten L. Weinberger K. Q. 2017.密集连接的卷积网络。IEEE计算机视觉和模式识别会议论文集第4700-4708页。
[7] Tan M. Le Q. V. 2019.高效网络重新思考卷积神经网络的模型缩放。arXiv预印本arXiv1905.11946。
[8] Xie Q. Luong M. T. Hovy E. Le Q. V. 2020.与嘈杂的学生进行自我训练可改进图像网分类。在IEEE/CVF计算机视觉和模式识别会议记录中第10687-10698页。
[9] Pham H. Xie Q. Dai Z. Le Q. V. 2020.元伪标签。arXiv预印本arXiv2003.10580。
[10] Szegedy C. Vanhoucke V. Ioffe S. Shlens J. Wojna Z. 2016.重新思考计算机视觉的初始架构。IEEE计算机视觉和模式识别会议论文集第2818-2826页。