建设工程消防设计备案哪个网站,网站图片多 如何优化,邯郸服务,wordpress怎么把分类弄在左边来源#xff1a;AI科技评论作者 | Lilian Wang 王荔编译 | MrBear对于给定的任务#xff0c;在拥有足够的标签的情况下#xff0c;监督式学习可以很好地解决该问题。想要得到好的性能#xff0c;往往需要大量的数据标签#xff0c;但是手动收集数据的成本很高#xff08;… 来源AI科技评论作者 | Lilian Wang 王荔编译 | MrBear对于给定的任务在拥有足够的标签的情况下监督式学习可以很好地解决该问题。想要得到好的性能往往需要大量的数据标签但是手动收集数据的成本很高例如ImageNet而且也很难对数据集进行扩展。考虑到无标签数据例如免费的文本、网络上所有的图像的数据量远远超过了数量有限的人为标记的数据集如果不使用这些无标签数据是一种极大的浪费。然而无监督学习是很困难的而且相较于监督式学习往往要低效得多。如果我们可以在不花费成本的情况下为无标签数据打上标签并且以有监督的方式训练无监督数据那会怎么样呢我们可以通过一种特殊的形式创建一个监督式学习任务使用待预测部分之外的信息来预测某一个子集的信息从而达到训练的目标。这样一来所有需要的信息包括输入数据和相应的标签都具备了。这就是所谓的「自监督学习」。这一思想已经被广泛应用于语言建模任务中。对于语言模型来说一个默认的任务就是在给定之前的文字序列的情况下预测下一个单词。BERT 加入了两个辅助任务它们都依赖于自己生成的标签。图 1构建自监督任务的方法总结图片来源LeCun 的演讲https://www.youtube.com/watch?v7I0Qt7GALVk图中自上而下分别为1根据所有待预测部分之外的信息预测任意一部分信息。2根据过去预测未来。3根据过去最近的情况预测未来。4根据现在预测过去。5根据底层信息预测顶层信息。6根据可见的信息预测不可见的信息。7假设有一部分输入数据未知并且对其进行预测。这里呈上一份精心收集的自监督学习论文列表https://github.com/jason718/awesome-self-supervised-learning。如果你对此感兴趣并想进行更加深入的研究可以查阅这些论文。请注意本文并非仅仅关注自然语言处理NLP的语言建模或生成式模型涉及的内容包括以下几大部分一、为什么要进行自监督学习二、 基于图像的自监督学习1. 变形2. 图块3. 着色4. 生成式建模三、基于视频的自监督学习1. 追踪2. 帧排序3. 视频着色四、基于控制的自监督学习1. 多视角度量学习2. 自主目标生成五、 参考文献一、为什么要进行自监督学习自监督学习使我们能够无需额外成本就可以利用根据数据得出各种标签这个动机非常直接。生成一个带有「干净」无噪声的标签的数据集的成本是很高的但无标签的数据却无时无刻不在产生。为了利用大量的无标签数据一种解决方法是合理设置学习目标以便从数据本身中得到监督信号。自监督任务也称为 pretext 任务要求我们考虑监督损失函数。然而我们通常不关心该任务最终的性能。实际上我们只对学习到的中间表征感兴趣我们期望这些表征可以涵盖良好的语义或结构上的意义并且能够有益于各种下游的实际任务。举例而言我们可以随机旋转图像并训练一个模型来预测每个输入图像是如何被旋转的。这个旋转预测任务是人为构造的所以就像我们对待辅助任务一样实际上的准确率并不重要。但是我们期望该模型能够学习到用于真实世界任务的高质量的潜变量例如只用很少的带标签样本构建一个目标识别分类器。一般来说所有的生成式模型都可以被看做是自监督的但是它们的目标各不相同生成式模型重点关注创建各种各样逼真的图片而自监督表征学习则关注生成对于多种任务普遍有帮助的良好特征。生成式模型并不是本文关注的重点如果对此感兴趣可以参阅下面的博文https://lilianweng.github.io/lil-log/tag/generative-model二、基于图像的自监督学习研究人员针对图像的自监督表征学习已经提出了很多的思路。一种常见的工作流程是在一个或多个使用无标签图像的pretext 任务上训练模型然后使用该模型的一个中间特征层为 ImageNet 分类任务的多分类 Logistic 回归分类器提供输入。最近一些研究人员提出利用有标签的数据训练监督式学习同时利用无标签数据数据在共享权重的情况下训练自监督的pretext 任务例如Zhai 等人于 2019 年发表的论文「S4L: Self-Supervised Semi-Supervised Learning」论文链接https://arxiv.org/abs/1905.03670和 Sun 等人于2019 年发表的论文「Unsupervised Domain Adaptation through Self-Supervision」论文链接https://arxiv.org/abs/1909.11825。1、变形我们期望图像上的细微变形不会改变其原始语义或几何形式。我们可以认为轻微变形后的图像与原始图像相同因此期望学习到的特征对于变形操作具有不变性。Dosovitskiy 等人于 2015 年发表的「Exemplar-CNN」相关论文https://arxiv.org/abs/1406.6909使用无标签的图像图块创建了替代的训练数据集1. 在不同位置和不同的尺度的图像上进行采样得到 N 个 32*32 像素的图块。只从梯度较大的区域选取图块因为这些区域包含了边缘更有可能包含物体或物体的一部分。它们是「模范」图块。2. 通过应用各种各样的随机变换例如平移、旋转、缩放等对每个图块进行变形。我们认为最终得到的所有变形后的图块都属于同一个代理类。3. Pretext 任务需要能够将一组替代类区分开来。我们可以任意创建所需的替代类。图 2左上角是一只可爱的鹿的原始图块。在应用了随机变换后产生了各种变形后的图块。在 pretext 任务中所有这些图块都应该被归为同一类。图片来源Dosovitskiy 等人于 2015 年发表的「Exemplar-CNN」旋转整张图像Gidaris 等人于 2018 年发表的论文「Unsupervised Representation Learning by Predicting Image Rotations」论文链接https://arxiv.org/abs/1803.07728是另一种有趣且低成本的方法可以在保持语义内容不变的情况下修改输入图像。每个输入图像首先随机旋转 90 度的倍数分别对应于 [0°90°180°270°]。我们训练模型去预测应旋转了多少度因此这是一个 4 分类问题。为了识别出旋转了不同角度的同一张图像模型必须学会识别高级目标部分如头部、鼻子和眼睛并识别出这些部分的相对位置而不是仅仅识别出局部模式。Pretext 任务使模型以这种方式学习物体的语义概念。 图 3通过旋转整张图像进行自监督学习的示意图。模型通过学习预测旋转了多少度。图片来源Gidaris 等人于 2018 年发表的论文「Unsupervised Representation Learning by Predicting Image Rotations」2、图块第二类自监督学习任务从一张图像中抽取出多个图块并要求模型预测出这些图块之间的关系。Doersch 等人于 2015 年发表的论文「Unsupervised Visual Representation Learning by Context Prediction」论文链接https://arxiv.org/abs/1505.05192将 pretext 任务形式化定义为预测同一张图像中随机两个图块之间的相对位置。为了识别出不同部分之间的相对位置模型需要理解目标的空间环境。我们通过下面的方式对训练使用的图块进行采样1. 在不参考任何图像内容的情况下随机采样第一个图块。2. 考虑第一个图块处于一个 3*3 网格的中央则从与第一个图块相邻的周围 8 个位置中采样得到第二个图块。3. 为了避免模型仅仅捕获到低级的不重要的信号例如连接一条跨越边界的直线或将局部模式配对我们通过以下方式引入额外的噪声1增加图块之间的间隙2细小的抖动3随机地对一些图块进行下采样使其总像素为 100然后对其进行上采样从而实现对像素化的鲁棒性4将绿色和品红色调成灰色或随机丢弃 3 个颜色通道中的 2 个详见下方对「色差」的介绍4. 训练模型预测第二个图块将选用相邻的 8 个位置中的哪一个这是一个 8 分类问题。图 4通过预测两个随机图块的相对位置进行自监督学习的示意图图片来源Doersch 等人于 2015 年发表的论文「Unsupervised Visual Representation Learning by Context Prediction」除了诸如边界模式或纹理等普通信号我们还发现了另一个有趣且令人有点惊讶的平凡解我们将其称之为「色差」。它是由穿过透镜的不同波长的光的焦距不同引起的。在此过程中颜色通道之间可能存在微小偏移。因此该模型可以通过简单比较绿色和品红色在两个不同图块中被区分开来的程度来学习识别出相对位置。这是一个简单的解决方案与图像内容无关。预处理图像时通过将绿色和品红转换成灰色或随机丢弃 3 个颜色通道中的 2 个可以避免这种平凡解。图 5发生色差的示意图由于我们已经在上述任务中为每一张图像设置了一个 3*3 的网格为什么不使用所有 9 个图块而仅仅使用 2 个图块来使得任务更加困难呢沿着这种思路Noroozi 和 Favaro 于 2016 年设计了一个「jigsaw」拼图游戏作为 pretext 任务训练模型将 9 个打乱的图块放回初始的位置。卷积网络以共享的权重独立处理每个图块并根据预定义的排列组合输出每个图块索引的概率向量。为了控制「jigsaw」拼图游戏的难度该论文提出根据预定义的排列集合打乱图块并对模型进行配置以预测集合中所有索引的概率向量。因为将输入的图块打乱的方式不会改变预测的正确顺序因而使用具有排列不变性的图卷积网络GCN可以不必对同一个图块集进行多次打乱操作从而提高训练速度详情请参阅论文「PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning」论文链接https://arxiv.org/abs/1911.00025。图 6通过解决 jigsaw 拼图问题进行自监督学习的示意图图片来源Noroozi 和 Favaro 于 2016 年发表的「Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles」另一个思路是将「特征」或「视觉基元」视为一个标量值属性该属性可以根据多个图块求和得到也可以在不同图块间进行对比。然后可以通过计数特征和简单的算术来定义不同图块之间的关系可参考Noroozi 等人于 2017 年发表的论文「Representation Learning by Learning to Count」论文链接https://arxiv.org/abs/1708.06734。该论文考虑了两种不同的变换1. 放缩如果一个图像放大了 2 倍视觉基元的数量应该保持不变。2. 平铺如果图像平铺成了一个 2*2 的网格视觉基元的数量之和应该是原始特征计数的 4 倍。该模型将使用上述特征计数关系学习一个特征编码器 φ.。给定输入图像 x∈Rm×n×3考虑下面两类变换操作1. 下采样操作D:Rm×n×3↦Rm/2×n/2×3 长和宽分别下采样为原始图像的二分之一2. 平铺操作Ti:Rm×n×3↦Rm/2×n/2×3 从图像的 2*2 网格中抽取出第 i 个图块我们期望通过学习得到 因此均方误差MSE损失可以写成 为了避免平凡解 φx0∀x我们还加入了另一个损失项来放大两张不同的图像之间的特征差异 其中 y 是与 x 不同的另一张输入的图片c 是一个标量常数。最终的损失函数为 图 7通过计数特征进行自监督学习的示意图图片来源Noroozi 等人于 2017 年发表的「Representation Learning by Learning to Count」3、着色着色可以被用作一个强大的自监督任务训练模型对灰度输入图像进行着色确切地说我们的任务是将该图像映射到量化的色彩值输出的分布上详见 Zhang 等人于 2016 年发表的「Colorful Image Colorization」论文链接https://arxiv.org/abs/1603.08511。模型的输出颜色在 CIE Lab* 色彩空间中而 Lab* 色彩空间的设计初衷就是为了近似人类的视觉系统。相反RGB 和 CMYK 则对物理设备的色彩输出进行了建模。L* 分量对应于人类对亮度的感知L*0 代表全黑而 L*100 代表全白。a* 分量代表绿色负到品红色正之间的值b* 分量代表蓝色负到黄色正之间的值由于着色问题的多模态特性预测的概率分布在二值化的色彩值上的交叉熵损失优于原始颜色值的 L2 损失。ab 色彩空间被量化为 10 个等级。为了平衡常用颜色通常 ab 值较低常见的背景如云彩、墙壁和灰尘会使用这些颜色和罕见的颜色这些颜色可能与图像中的关键物体有关我们通过加重不常见颜色的加权项来重新平衡损失函数。这就像为什么我们需要「tf」和「idf」在信息检索模型中为单词打分。加权项被构造为(1-λ) ×高斯核平滑的经验概率分布 λ × 一个均匀分布这两种分布都在量化的 ab 色彩空间上。4、生成式建模生成式建模的 pretext 任务是在学习有意义的潜在表征的同时重建原始输入。去噪自动编码器详见 Vincent 等人于 2018 年发表的「Extracting and Composing Robust Features with Denoising Autoencoders」论文链接https://www.cs.toronto.edu/~larocheh/publications/icml-2008-denoising-autoencoders.pdf会学习根据部分损坏或带有随机噪声的图像恢复出原图像。这一设计的灵感源于这样一个事实即使有噪声人类也可以轻松地识别出图片中的对象这表明算法可以提取关键的视觉特征并将其与噪声分离。详情请参阅此博文https://lilianweng.github.io/lil-log/2018/08/12/from-autoencoder-to-beta-vae.html#denoising-autoencoder。我们训练上下文编码器详见 Pathak 等人于 2016 年发表的论文「Context Encoders: Feature Learning by Inpainting」论文链接https://arxiv.org/abs/1604.07379来填补图像中确实的一块。令 M^ 为一个二值掩膜其值为 0 代表丢弃该像素其值为 1 代表保留输入像素。我们使用一个 L2 重建损失和对抗性损失的组合来训练该模型。通过掩膜定义的删除区域的形状是任意的。 其中 E(.) 是编码器而 D(.) 是解码器。图 8上下文编码器的示意图图片来源Pathak 等人于 2016 年发表的论文「Context Encoders: Feature Learning by Inpainting」当我们将掩膜应用于一张图像上时上下文编码器会删除部分区域汇总所有颜色通道的信息。那么如果我们只隐藏一部分颜色通道的信息会怎么样呢「split-brain」自编码器详见 Zhang 等人于 2017 年发表的论文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」论文链接https://arxiv.org/abs/1611.09842根据其余的通道预测一个颜色通道的子集从而做到这一点。令带有 c 个颜色通道的数据张量 x∈Rh×w×|C| 为第 l 层网络的输入它被分为两个不相交的部分 x1∈Rh×w×|C1| 和 x2∈Rh×w×|C2| 其中 C1,C2⊆C。接着我们训练两个子网络来完成两个互补的预测任务网络 f1 根据 x1 预测 x2而另一个网络 f2 则根据 x2 预测 x1。如果色彩值被量化了这里使用的损失函数是 L1 损失或交叉熵损失。这种分裂可能发生在 RGB-D 或 Lab* 色彩空间中也可能发生在卷积神经网络CNN的每一层中其中通道的数量可能是任意的。 图 9「split-brain」自编码器的示意图。图片来源Zhang 等人于 2017 年发表的论文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」生成对抗网络GAN可以学习到从简单的潜变量到任意复杂数据分布的映射。许多研究已经表明这种生成式模型的潜空间可以捕获数据中的语义变化。例如当我们使用人脸数据训练 GAN 时一些潜变量与面部表情、眼镜、性别等特征相关详见 Radford 等人于 2016 年发表的论文「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」论文链接https://arxiv.org/abs/1511.06434双向 GAN详见 Donahue 等人于 2017 年发表的论文「Adversarial Feature Learning」论文链接https://arxiv.org/abs/1605.09782则引入了一种额外的编码器 E. 来学习从输入到潜变量 z 的映射。判别器 D(.) 在输入数据和潜在表征构成的联合空间xz中做预测从而将生成的数据对x,Ex与真实数据对Gzz区分开来。我们训练该模型优化的目标为minGEmaxDV(D,E,G)其中生成器 G 和 编码器 E 学着生成足够逼真的数据和潜变量来骗过判别器同时判别器 D 试图区分真实数据和生成的数据。 图 10双向 GAN 工作原理示意图图片来源Donahue 等人于 2017 年发表的论文「Adversarial Feature Learning」三、基于视频的自监督学习视频包含一系列语义上相关的帧。相邻的帧在时间上更接近并且比距离更远的帧更具相关性。视频帧的顺序反映了推理和物理逻辑的某些规则。例如物体的运动应该是流畅的重力是向下的。常见的工作流程是在一个或多个带有无标签视频的 pretext 任务上训练模型然后将该模型的一个中间特征层作为输入在基于动作分类、分割或物体跟踪等下游任务中对模型进行调优。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”