dw制作网站,中铁建设中南分公司,个人主页html下载,美食网站建设方案最近正在研究行人检测#xff0c;学习了一篇2014年发表在ECCV上的一篇综述性的文章#xff0c;是对行人检测过去十年的一个回顾#xff0c;从dataset#xff0c;main approaches的角度分析了近10年的40多篇论文提出的方法#xff0c;发现有三种方法#xff08;DPM变体学习了一篇2014年发表在ECCV上的一篇综述性的文章是对行人检测过去十年的一个回顾从datasetmain approaches的角度分析了近10年的40多篇论文提出的方法发现有三种方法DPM变体Deep networksDecision forests都取得了相似的最好结果并总结了featureadditional data以及context information等对于detection quality的影响。 1、Introduction 行人检测主要的方法有ViolaJones variantsHOGSVM rigid templates, deformable part detectors (DPM), and convolutional neural networks(ConvNets) 。 2、Datasets 主要的datasets有6个INRIA, ETH, TUD-Brussels, Daimler(Daimler stereo), Caltech-USA, KITTI。 2.1 INRIA数据库 http://pascal.inrialpes.fr/data/human/ 介绍该数据库是“HOGSVM”的作者Dalal创建的该数据库是目前使用最多的静态行人检测数据库提供原始图片及相应的标注文件。训练集有正样本614张包含2416个行人负样本1218张测试集有正样本288张包含1126个行人负样本453张。图片中人体大部分为站立姿势且高度大于100个象素部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚但可用OpenCV正常读取和显示。 更新2005 2.2 ETHZ行人数据库 Robust Multi-Person Tracking from Mobile Platforms https://data.vision.ee.ethz.ch/cvl/aess/dataset/ Ess等构建了基于双目视觉的行人数据库用于多人的行人检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄分辨率为640×480帧率13-14fps给出标定信息和行人标注信息深度信息采用置信度传播方法获取。 更新2010 2.3 TUD行人数据库 https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/people-detection-pose-estimation-and-tracking/multi-cue-onboard-pedestrian-detection/ 介绍TUD行人数据库为评估运动信息在行人检测中的作用提供图像对以便计算光流信息。训练集的正样本为1092对图像图片大小为720×576包含1776个行人负样本为192对非行人图像手持摄像机85对车载摄像机107对另外还提供26对车载摄像机拍摄的图像包含183个行人作为附加训练集。测试集有508对图像图像对的时间间隔为1秒分辨率为640×480共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位脚、小腿、大腿、躯干和头部的大小和位置信息。测试集为250张图片包含311个完全可见的行人用于测试检测器的性能2个视频序列TUD-Campus和TUD-Crossing用于评估跟踪器的性能。 更新2010 2.4 Daimler行人数据库 http://www.gavrila.net/Datasets/Daimler_Pedestrian_Benchmark_D/daimler_pedestrian_benchmark_d.html 该数据库采用车载摄像机获取分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18×36和48×96的图片各155603915×4张行人的最小高度为72个象素负样本6744张大小为640×480或360×288。测试集为一段27分钟左右的视频分辨率为640×480共21790张图片包含56492个行人。分类数据库有三个训练集和两个测试集每个数据集有4800张行人图片5000张非行人图片大小均为18×36另外还有3个辅助的非行人图片集各1200张图片。 更新2009 2.5 Caltech Pedestrian Detection http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/ 该数据库是目前规模较大的行人数据库采用车载摄像头拍摄约10个小时左右视频的分辨率为640×48030帧/秒。标注了约250,000帧约137分钟350000个矩形框2300个行人另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10其中set00~set05为训练集set06~set10为测试集标注信息尚未公开。性能评估方法有以下三种1用外部数据进行训练在set06~set10进行测试26-fold交叉验证选择其中的5个做训练另外一个做测试调整参数最后给出训练集上的性能3用set00~set05训练set06~set10做测试。由于测试集的标注信息没有公开需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试将结果保存在txt文档中文件的命名方式为I00029.txt I00059.txt ……每个txt文件中的每行表示检测到一个行人格式为“[left, top,width, height, score]”。如果没有检测到任何行人则txt文档为空。该数据库还提供了相应的Matlab工具包包括视频标注信息的读取、画ROCReceiver Operatingcharacteristic Curve曲线图和非极大值抑制等工具。 更新2014 2.6 KITTI Vision Benchmark http://www.cvlibs.net/datasets/kitti/index.php KITTI是德国卡尔斯鲁厄理工学院和芝加哥丰田技术研究所联合创办的一个算法评测平台旨在评测对象机动车、非机动车、行人等检测、目标跟踪等计算机视觉技术在车载环境下的性能为机动车辅助驾驶应用做技术评估与技术储备。 2.7 小结 http://www.cvpapers.com/datasets.html 绝大多数的数据集都可以在上面网址中找到。 INRIA最旧图像也最少不过好处是它拥有比较丰富的背景环境如城市沙滩山地等所以被使用的比较多。 ETH和TUD-Brussels是中等大小的视频数据集Daimler缺乏彩色信息Daimler stereo, ETH, and KITTI 提供立体信息。除了INRIA之外的数据集都是从视频中获取的因此可以使用光流作为additional cue。 现在用的最多的数据集是Caltech-USA和KITTI二者都是比较大且具有挑战性的。Caltech-USA有大量的方法使用因而比较起来比较方便而KITTI的数据集更加丰富一些但是用的。这篇文章主要是以Caltech数据集作为标准以INRIA和KITTI作为辅助。 3 Main approaches to improve pedestrian detection 首先介绍了近十年的主要发展 2003, VJ detector. 2005, HOG detector. 2008, DPM. 2009, Caltech dataset, 评价方法FPPW-FPPI. 然后比较了40种左右方法的missing rate给出了图表。 3.1 Training data 很显然上图3显示了训练数据的大小比较明显的影响了结果的好坏。红色部分使用的训练集也是由Caltech数据集扩展而来。 3.2 Solution families 表1的40多种方法大体可以分为3类DPM变体DN和DF。这三种方法都大体达到了state of art 。 3.3 Better classifiers HOGSVM 和 HikSvm 这些古老的方法在当时的评价方法FPPW下表现很好但是却在FPPI下性能比较差。MultiFtrs 方法说明Adaboost以及线性SVM在给定足够多feature的条件下是可以达到同样的检测效果的。 并没有经验性的证据表明非线性核比线性核的性能更好。也没有证据表明某种分类器是最适合做行人检测的。 3.4 Additional data 使用额外的数据可以取得有效的提高但是像立体和光流等线索都没有被完全利用起来。现在基于单眼的方法已经达到了有额外信息方法的水平了。 3.5 Exploiting Context 环境信息也可以给行人检测带来提升尽管不如额外数据和深度结构那样明显。 3.6 Deformable Parts DPM detector就是为了做pedestrian detection而被提出来的。这种方法及其变体都很流行尽管检测结果都很不错但是却并不突出。越来越多的仅仅使用单个部件的方法都超越了DPM这样就让我们产生了疑问究竟有没有必要使用多个部件即使是在有遮挡的情况下这个问题目前也是没有明确答案的。 3.7 Multi-scale models 多尺度多分辨率的模型提供了一个对于已有检测子的更简洁和一般化的延伸。尽管有所提升但对于最终的结果提升相当小。 3.8 Deep Architecture 随着数据量的增加和计算能力的增强在计算机视觉领域包括行人检测方面使用深度网络尤其是CNN变得流行。 ConvNet结构混合了监督的和无监督的训练来搭建卷积神经网络在INRIA,ETH,TUD-Brussels上得到了一般的结果但在Caltech集上却失败了。这是从像素层面直接获取特征的方法。 而另一些结构DBN, JointDeep, SDN将part model和遮挡结合起来 都放进了深度结构但它并不是从原始像素点之中去发现特征而是从使用了边缘和色彩特征或者将网络权重初始化时设置对边缘敏感的滤波器。值得注意的是目前还没有人事先在ImageNet上预训练过。 虽然没有证据显示神经网络适合进行行人检测但是很多性能良好的模型都使用了这种结构不过其性能也只是和DPM和DF差不多优势并不明显。 3.9 Better features 在改进行人检测的工作中做的最多的就是增加或者多样化输入图像的特征。通过更多的和更高维度的特征分类的任务似乎是变简单了结果也有了改进。很多种类的特征已经被发现边缘信息颜色信息纹理信息局部形状信息协方差特征还有其他等等。越来越多的特征已被证明可以系统性的改善性能。 很多decision forest 方法采用10个feature channel有些则采用了多达上百个feature channel。尽管增加channel可以提升性能但目前表现最好的方法都是采取10个channel的6个梯度方向1个梯度幅值3个颜色通道叫做 HOGLUV. 过去十年特征的提升是检测效果提升的动力显然接下来的日子里提升特征效果将依然是主流。这些提升都是在大量的实验和错误下累积起来的。接下来的研究将集中在为什么这些特征这么好以及如何设计更好的特征上。 4 Experiments 基于上面的分析可以得出检测效果的提升主要集中在3个方面better featuresadditional data 和context information。所以我们做实验来研究他们之间的互补性。 在3.2 中给出的3中主要方法里我们选择了 Integral Channels Features 框架DF方法来做实验因为这种方法表现突出且训练较快。 4.1 Reviewing the effect of features 所有方法都是在INRIA上训练在Caltech上测试。如图5所示 第一批实验都是复现那些具有里程碑式的方法如 VJ HOGlinear SVM and ChnFtrs 。 从VJ以来性能的提升多半可以归功于采用了更好的特征梯度方向和颜色信息等。即使是在已有特征基础上加入的一点点微调也能产生显著的提升如SquaresChnFtrs 加入DCT变换。 4.2 Complementarity of approaches 接下来作者又做了大量实验来研究better featuresHOGLUVDCT additional data via optical flow, and context via person-to-person interactions之间的互补性。 在上文SquaresChnFtrsDCT 的基础上作者用和 ACFSDt 中同样的方法将光流信息编码同时用2Ped 中的re-weighting技巧把环境信息加入。这种 SquaresChnFtrsDCTSDt2Ped 的方法被称为Katamari-v1。 如图7 所示Katamari-v1 方法达到了在Caltech上的最好结果图7还显示了其他方法所获得最好效果。 结论实验证明——通过加入额外的特征光流和环境信息是可以很大程度的互补的获得了12%的提升。 4.3 How much model capacity is needed? 我们的目标是要从训练集到测试集推广那么在研究模型泛化能力的时候一个重要的问题就是模型在训练集上的效果如何呢 图6显示模型在训练集上的效果不幸的是这些方法都在训练集上就表现不佳所以目前还没有发现过拟合的问题。 所以我们还是应该研究更有区分力的检测子来提升检测结果。这些更有区分力的检测子可以通过寻找更好的features和更复杂的分类器来实现。 4.4 Generalisation across datasets 对于真实世界应用来说模型的泛化能力才是关键。 表2 展示了SquaresChnFtrs 用不同训练集训练时在Caltech上的表现对于KITTI评价指标是AUC越高越好对于其他数据集评价指标是MR越小越好。 从表中可以看出在Caltech和KITTI上训练对于INRIA数据集的泛化性能很差。而反过来INRIA确实对于Caltech和KITTI第二好的选择。这些结果表明Caltech的行人相对更加单一的而INRIA却因为它的多样性而更加有效。 如图8训练和测试如果都在KITTI上SquaresChnFtrs 在KITTI上叫SquaresICF 比普通的DPM好而且还和最好的DPM变体DA-DPM )相当。目前在KITTI上表现最好的方法pAUC 是ChnFtrs 的变体只是它使用了250个特征通道而已。 这也和我们在3.9 和4.1 中的结论一致。 小结尽管在一个训练集上训练之后再在另一个数据集上测试效果不一定好但是排名大体还是基本一致的。也就是说只要方法足够好无论benchmark是什么都能得到好的结果。 5 Conclusion 做了这么多实验发现这么多年在pedestrian detection上的进步基本上都得益于特征的提升目前来看这种趋势还将继续。 实验结果表明better features optical flow context 是互补的。将它们结合起来得到了在Caltech数据集上的最好模型。 尽管三种主要的方法——DPMDFDN——是基于完全不同的学习技巧的它们的state of art 结果却是惊人相似的。 最后未来的挑战将是更深层次的理解好的特征为什么好这样才能设计出更好的特征 参考文献 http://janhosang.com/pdfs/2014_eccvw_ten_years_of_pedestrian_detection_with_supplementary_material.pdfhttp://blog.csdn.net/mduke/article/details/46582443 转载于:https://www.cnblogs.com/huty/p/8517965.html