网上哪个网站做的系统好用吗,山东网站建设和游戏开发的公司,泉州网站建设培训机构,那个公司做的外贸网站好1. 背景
之前我们了解了VIT和transformer
MAE 是基于VIT的#xff0c;不过像BERT探索了自监督学习在NLP领域的transformer架构的应用#xff0c;MAE探索了自监督学习在CV的transformer的应用 论文标题中的Auto就是说标号来自于图片本身#xff0c;暗示了这种无监督的学习 …1. 背景
之前我们了解了VIT和transformer
MAE 是基于VIT的不过像BERT探索了自监督学习在NLP领域的transformer架构的应用MAE探索了自监督学习在CV的transformer的应用 论文标题中的Auto就是说标号来自于图片本身暗示了这种无监督的学习
2.方法
像是Bert一样通过mask形成带掩码的语言模型挖掉东西然后让模型来估计 随机盖住一些块patch然后预测出盖住的patch预测这个patch里的所有像素
遮住更大的块的话可以让模型学习一些更好的表征
要注意这些模型的基本都很大
2.1 基本流程 1首先输入图像随机打成一个一个的块patch随机遮住其中一些
2然后将未遮住的块送入Encoder编码器进行编码 形成特征这里注意我们的编码器只需要处理未遮住的块所以计算量要比全部处理更小
3和原来遮住的块叠加拼接 再送入decoder解码器恢复被遮住的块
实际使用中只需要用编码器即可不需要做掩码编码器提取特征用于计算机视觉的下游任务
由于编码很重要所以主要的计算量还是来自编码器
2.2 与VIT比较
1盖住更多的块使得块与块之间的冗余没有那么高
2用一个transformer架构的解码器直接还原原始像素信息使得整个流程更加简单
3加上一些技术如正则项技术也可以在小一点的数据集上训练出来使得训练更加鲁棒
3.实验
映射的维度
微调可以调整个全部的网络也可以调最后一层或者调网络中的部分层微调哪些层
尝试不同遮住率