主题网站的设计方案,网站管理页面,电子商务论文网站建设,78模板网免费模板欢迎大家来自《图像分类》专栏#xff0c;今天讲述细粒度图像分类问题#xff0c;这是计算机视觉领域一项极具挑战的研究课题#xff0c;本文介绍了细粒度图像分类算法的发展现状、相关数据集和竞赛#xff0c;供大家参考学习。作者 | 郭冰洋编辑 | 言有三1 简介细粒度图像… 欢迎大家来自《图像分类》专栏今天讲述细粒度图像分类问题这是计算机视觉领域一项极具挑战的研究课题本文介绍了细粒度图像分类算法的发展现状、相关数据集和竞赛供大家参考学习。作者 | 郭冰洋编辑 | 言有三1 简介细粒度图像分类是在区分出基本类别的基础上进行更精细的子类划分如区分鸟的种类、车的款式、狗的品种等目前在工业界和实际生活中有着广泛的业务需求和应用场景。细粒度图像相较于粗粒度图像具有更加相似的外观和特征加之采集中存在姿态、视角、光照、遮挡、背景干扰等影响导致数据呈现类间差异性大、类内差异性小的现象从而使分类更加具有难度。细粒度图像分类研究从提出到现在已经经历了一段较长时间的发展。面对这一挑战人们在粗粒度图像分类模型的基础上进行了更加细致的研究和改进大致可以分为基于特征提取的传统算法和基于深度学习的算法。早期的基于特征提取的算法由于特征的表述能力有限分类效果也往往面临很大的局限性。近年来随着深度学习的兴起神经网路强大的特征提取能力促进了该领域的快速进步。2 基于特征提取的传统算法1、局部特征早期基于人工特征的细粒度图像分类算法其研究重点为图像的局部特征一般先从图像中提取某些局部特征然后利用相关编码模型进行特征编码。由于局部特征选择过程繁琐表述能力有限其自身也存在一定缺陷即忽略了不同局部特征之间的关联以及与全局特征之间的位置空间关系因此并没有取得令人满意的结果。2、视觉词包为了进一步提升分类精度相关人员在局部特征的基础上又进一步提出视觉词包BOVW的概念。通过统计图像的整体信息将量化后的图像作为视觉单词通过视觉单词分布来描述图像内容。词包模型与一系列特征提取算法进行融合虽然取得了一定的进展但距离实际应用要求还有很远的距离。同时构建词包的过程非常复杂需要额外的处理工作。3、特征定位局部特征和视觉词包都没有构建与全局特征之间的关联只在图像的部分区域进行语义挖掘因此人们提出对特征进行定位如利用关键点的位置信息发现最具价值的图像信息。通过位置信息的辅助分类精度也得到了一定的提高但是位置信息的获取需要高精度的算法来完成同时还需要精细的人工标注其成本更大。3 基于深度学习的算法随着深度学习的兴起从神经网络中自动获得的特征比人工特征具有更强大的描述能力在一定程度上极大地促进了细粒度图像分类算法的发展。根据监督方式的不同该类算法可以分为强监督和弱监督两种类别。1、强监督细粒度图像分类强监督利用bounding box和key point等额外的人工标注信息获取目标的位置、大小等有利于提升局部和全局之间的关联从而提高分类精度。Part-based R-CNN基于R-CNN算法完成了局部区域的检测利用约束条件对R-CNN提取到的区域信息进行修正之后提取卷积特征并将不同区域的特征进行连接构成最后的特征表示然后通过SVM分类器进行分类训练该算法在CUB-200数据集上取得了73.9%的精度。Pose-normalized CNN首先对每一张图片进行局域位置的检测然后将检测框内的图像进行裁剪从而提取不同层次、不同位置的图像再对提取到的图像块进行姿态对齐送入CNN将得到的特征拼接后利用SVM分类器进行分类该算法在CUB-200数据集上取得了75.7%的精度。Multi-proposal Net则通过Edge Box Crop方法获取图像块并引入关键点及视觉特征的输出层进一步强化了局部特征与全部信息直接的位置关联该算法在CUB-200数据集上取得了80.3%的精度。2、弱监督细粒度图像分类弱监督即仅利用图像的类别标注信息不使用额外的标注。该方法又可以总结为图像过滤和双线性网络两类。(1) 图像过滤图像过滤的思想和强监督中利用bounding box的方法类似只不过仅借助于图像的类别信息过滤图片中与物体无关的模块其中比较有代表性的即Two Attention Level算法。Two Attention Level利用物体级和局部级的信息通过Search Selective算法过滤掉无关背景然后将过滤掉的背景送入CNN网络进行训练得到物体级别的分类结果随后通过聚类算法将不同位置的特征继续区分并将不同区域的特征拼接后送入SVM分类器进行训练该算法在CUB-200数据集上取得了75.7%的精度。在此方法的灵感上后续诸多算法开始研究如何更好、更有效地对图像无关背景完成过滤从而获取到更有效的目标特征信息。(2) 双线性网络人在认知物体和事物时往往需要完成对其特征的理解以及类别名称的记忆为了使神经网络具有更强大的学习能力B-CNN创新性的提出了一个全新的概念。B-CNN根据大脑工作时同认知类别和关注显著特征的方式构建了两个线性网络协调完成局部特征提取和分类的任务该算法在CUB-200数据集上取得了84.1%的精度不过该方法在合并阶段会产生较高的维度使得整个计算开销非常大。后续的双线性网络将改进方向放在了设计更好的双线性汇合过程以及精简双线性汇合以减少计算开销同时提升分类精度。在有三AI知识星球中进行了较多的讲述大家感兴趣可以移步【知识星球】超3万字的网络结构解读学习必备介绍完主要的思想方法现将近年来基于深度学习的相关算法在CUB-200数据集上所取得的成绩进行罗列供大家查阅。通过准确度排行列表我们可以看到想要实现真正的应用细粒度图像分类还有很长的一段路要走。4 数据集相对于粗粒度图像分类任务的数据集细粒度图像数据获取难度要更大一些其搭建往往需要更加专业的相关知识。近年来越来越多的细粒度数据集出现这也侧面反应了这一领域的发展势头和实际需求。(1) CUB-200CUB-200是细粒度图像分类领域最经典也是最常用的一个数据库共包含200种不同类别、11788张鸟类图像数据。同时该数据库提供了丰富的人工标注数据每张图像包含15个局部区域位置、312个二值属性、1个标注框 以及语义分割图像。(2) Stanford Dogs作为Stanford数据库的系列之一该数据库提供了120种不同种类的狗的图像数据共有20580张图只提供标注框。(3) Stanford Cars在对狗的不同类别进行构建后Stanford团队又对车辆进行了详细的汇总和收集提供196类不同品牌不同年份不同车型的车辆图像数据一共包含有16185张图像只提供标注框信息。(4) Oxford FlowersOxford团队构建的花朵数据库共包含102种类别每个类别包含了40到258张图像数据共有8189张图像。该数据库只提供语义分割图像 , 不包含其他额外标注信息。除了上述四个数据集相关数据集还有很多如下表所示在此不再一一进行细述。5 竞赛随着人们对细粒度图像分类的越来越重视相关赛事也在如火如荼的开展当中。2011 年谷歌开始赞助举办第一届FGVC Workshop之后每两年举办一次到 2017 年已经举办了四届。由于近年来计算机视觉的快速发展FGVC 活动影响力也越来越大自2018年开始由两年一次改为了一年一次。FGVC竞赛侧重于子类别的详细划分每届赛事都包含了多个主题涵盖了动物种类、零售产品、艺术品属性、木薯叶病、腊叶标本的野牡丹科物种、来自生命科学图片的动物物种、蝴蝶和蛾物种、菜肴烹饪以及博物馆艺术品等多个事物的细粒度属性。除了FGVC以外Kaggle也举办了许多以家具、动物为主题的细粒度图像分类竞赛。竞赛的举办在一定程度上促进了数据集的扩充同时发掘了更多、更有效的细粒度分类算法为该领域的进一步发展做出了重大贡献。6 总结作为计算机视觉领域一项极具挑战的研究课题细粒度图像分类的发展远远没有达到粗粒度图像分类的精度在深度学习日渐繁荣的今天如何更有效地解决这一问题也是图像分类领域的一大突破重点。有三AI夏季划有三AI夏季划进行中欢迎了解并加入系统性成长为中级CV算法工程师。转载文章请后台联系侵权必究往期精选【技术综述】你真的了解图像分类吗【技术综述】多标签图像分类综述【图像分类】分类专栏正式上线啦初入CV、AI你需要一份指南针【图像分类】从数据集和经典网络开始【图像分类】 基于Pytorch的多类别图像分类实战