网站seo快速,网站建设自查,网站推广花费多少钱,湖南省郴州市旅游景点介绍1 语义分割 语义分割是对图像中每个像素作分类#xff0c;不区分物体#xff0c;只关心像素。如下#xff1a; #xff08;1#xff09;完全的卷积网络架构 处理语义分割问题可以使用下面的模型#xff1a; 其中我们经过多个卷积层处理#xff0c;最终输出体的维度是C*H…1 语义分割 语义分割是对图像中每个像素作分类不区分物体只关心像素。如下 1完全的卷积网络架构 处理语义分割问题可以使用下面的模型 其中我们经过多个卷积层处理最终输出体的维度是C*H*WC表示类别个数表示每个像素在不同类别上的得分。最终取最大得分为预测类别。 训练这样一个模型我们需要对每个像素都分好类的训练集通常比较昂贵。然后前向传播出一张图的得分体C*H*W与训练集的标签体求交叉熵得到损失函数然后反向传播学习参数。 然而这样一个模型的中间层完全保留了图像的大小非常占内存因此有下面改进的框架。 2先欠采样再过采样的框架 经过欠采样后可以大量节省内存提高效率最后再经过过采样来恢复原始图片的大小。我们知道欠采样可以使用卷积层和池化下面介绍过采样的几种方式。 去池化 Unpooling 去池化有Nearest NeighborBed of Nails等方法 还有一种被称为Max Unpooling 的方法该方法记录下之前使用max pooling前各个最大值在数组中的索引去池化的时候把值放到索引处其他位置补0: 转置卷积 Transpose Convolution 不同于去池化转置卷积法是一种可学习的过采样方法。具体步骤是将输入的每个值作为权重对滤波器进行加权然后各个加权的滤波器按照步长拼成输出重叠部分相加。如下 我们可以通过学习滤波器来学习网络应该如何做过采样。 理解转置卷积的一个一维的例子是 在一些论文里转置卷积还有一些其他名字看到的时候要知道 另外转置卷积之所以被称为转置卷积是因为它的矩阵形式。传统的卷积写成矩阵形式如下注意这里是一维的例子 其中x是滤波器a是输入。而转置卷积写成矩阵形式如下: 2 分类定位 分类定位的任务要求我们在给图片打标签之后还要框出物体在什么地方注意与物体检测的区别在分类定位中输出的框的个数是事先已知的而物体检测中则是不确定的。如下 此类任务常用的处理框架如下 首先我们还是用CNN得到描述图片的特征向量然后我们接入两个全连接网络一个网络负责生成最后的类别评分另一个负责生成红框四个点的坐标值。因此对应两个损失softmax损失和回归损失。我们将这两个损失加权相加得到总的损失加权值是超参数然后进行反向传播学习。 这里应用回归的思路同样可以应用于姿态估计我们用十四个点来确定一个人的姿态情况 应用同样的框架CNN回归全连接网络可以训练这个任务 3 物体检测 与分类定位任务不同的是物体检测中需要检测的物体数量是不确定的因此无法直接使用上面的回归框架。下面简单介绍几个框架。 1滑动窗口 滑动窗口的思想是随机选取若干个不同大小不同位置的窗口对它们应用CNN进行分类。缺点是窗口数量很大计算代价很高。 2RCNN 训练阶段 a 使用IMAGENet的数据预训练一个CNN b 构造训练集首先应用Selective Search算法从每张带标定框的图像中选取20003000个候选框。对每个候选框来说找到与它重叠面积最大的标定框如果重叠比例大于阈值0.5则将该候选框标签设为该标定框的标签若重叠比例小于阈值0.5则标签设为“背景”。同时对于重叠比例大于一定阈值0.6的候选框还要计算出其与标定框的偏移距离。 c 每个候选区域经过预处理送到CNN中提取出图像特征然后把图像特征送到SVM分类器中计算出标签分类的损失。同时图像特征还要送到回归器中计算偏移距离的L2损失。 d 反向传播训练SVM回归器CNN 整体框架图如下 3Fast RCNN RCNN训练和预测速度很慢主要是由于不同候选框之间的重叠部分特征重复用CNN提取导致的。因此可以采取先对整个图像进行CNN特征提取然后在选定候选区域并从总的featuremap中找到每个候选区域对应的特征。框架如下 4Faster RCNN Fast RCNN的性能瓶颈是SS算法选定候选区域在Faster RCNN中使用网络Region Proposal Network (RPN) 来预测候选区域整体框架如下 Faster RCNN是当前很先进的目标检测框架要了解细节看这篇论文 Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015. 5SSD SSD的思想是将图像划分为很多个格子以每个格子的中心可以衍生出若干个base boxes。使用神经网络一次性的对这些格子进行分类对这些baseboxes进行回归。 上图中一个图像划分为7*7个grid每个grid有3个base boxes。我们需要用回归为每个base boxes预测五个值为每个格子进行分类打分。直接使用一个的CNN神经网络输出7*7*5*BC的大小即可。 更多细节参看论文Liu et al, “SSD: Single-Shot MultiBox Detector”, ECCV 2016 6各种物体检测框架的对比 有很多变量可控 这篇论文对比了各种框架 Huang et al, “Speed/accuracy trade-offs for modern convolutional object detectors”, CVPR 2017 FasterCNN比SSD具有更高的精度但是没有SSD快。 7Dense Captioning Dense Captioning 是对图片中的每个事物做检测并用语言进行描述 Dense Captioning其实就是Object Detection Captioning 其框架可以使用faster RCNN结合LSTM来做。具体参考文献 Johnson, Karpathy, and Fei-Fei, “DenseCap: Fully Convolutional Localization Networks for Dense Captioning”, CVPR 2016 4 物体分割 物体分割要做的是在物体检测上更进一步从像素层面把各个物体分割出来。 Mask RCNN是当前很前沿的一种方法其将faster RCNN和语义分割结合成一个框架具有非常好的效果框架为 如上图首先将图像使用CNN处理为特征然后经过一个RPN网络生成候选区域投射到之前的feature map。到这里与faster RCNN一样。之后有两个分支一个分支与faster RCNN相同预测候选框的分类和边界值另一个分支则与语义分割相似为每个像素做分类。 mask RCNN具有超级好的效果有机会一定要拜读一下。 He et al, “Mask R-CNN”, arXiv 2017 5 总结 这些成功的计算机视觉框架和模型给我们的启示是将具有基本功能的模块整合成一个可训练的端到端系统可以完成更加复杂的功能。通过向网络中引入多个损失函数的分支可以让其完成多目标的联合优化。 转载于:https://www.cnblogs.com/coldyan/p/8391559.html