企业策划 企业网站建设 品牌设计,网站类网站开发,wordpress建站企业站,网站源码安装教程文 | Random源 | AIWalkerpaper#xff1a;https://arxiv.org/abs/2212.00794本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的imag…文 | Random源 | AIWalkerpaperhttps://arxiv.org/abs/2212.00794本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的image-text数据对同时具有更少的内存占用。所提方案取得了更好的精度与训练时间均衡相比无Mask基线方案所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。受益于加速训练能力我们对扩展模型尺寸、数据集大小、训练周期进行了探索同时取得了喜人的结果。本文方案上图为所提FLIP方案示意图它由两部分构成Image Masking: 该采用ViT对图像进行编码参考MAE对图像块进行大比例Mask丢弃(如50%、75%)这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAEImageNet-1K 87.8%》。Text Masking与此同时我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时我们仅对可见token进行编码处理。这不同于BERT的处理机制采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过由于文本编码器比较小这里的加速不会导致更好的均衡。ObjectiveImage/Text编码器采用对比损失进行训练优化。在这里作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。Unmasking尽管编码器是在Masked图像上进行的预训练但它可以像MAE那样直接作用到无干扰的图像此可作为对标的基线。为进一步减少因Mask导致的分布差异作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。具体实现在实现方面作者参考CLIP与OpenCLIP并进行了以下几点改动图像编码器采用的是ViT但在Patch Embedding后并未使用额外的LayerNorm此外在图像编码尾部添加了GAP。图像输入尺寸为224.本文编码器为Non-AutoRegressive Transformer作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。图像编码器与文本编码器的输出投影到相同的嵌入空间然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。采用JAX实现在TPUv3集成进行训练。本文实验消融实验结果对比如下ImageNet1K数据集上结果对比如下更多分类数据集上的结果对比如下更多消融实验与实验结果请查看原文为避免误导各位大佬这里直接略过。后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群