百度的企业网站,免费wordpress托管,四川招标投标网,东莞长城开发科技有限公司arxiv#xff1a;https://arxiv.org/abs/2303.11749
github#xff1a;https://github.com/zhenyuw16/UniDetector 一、介绍
通用目标检测旨在检测场景那种的一切目标。现有的检测器依赖于大量数据集 通用的目标检测器应该有两个能力#xff1a;1、可以利用多种来…arxivhttps://arxiv.org/abs/2303.11749
githubhttps://github.com/zhenyuw16/UniDetector 一、介绍
通用目标检测旨在检测场景那种的一切目标。现有的检测器依赖于大量数据集 通用的目标检测器应该有两个能力1、可以利用多种来源的图片和标签训练2、可以很好的泛化到开放世界对于没见过的类别也可以预测。 传统的目标检测rcnn系列只能在封闭数据集上后来发展的开放词汇目标检测很大程度提升了性能也能泛化到一些非常见类别但是仍然只在一个数据集迁移同时见过的类别比没见过的类别多泛化能力受到限制。在多数据集上训练的问题是需要统一标签空间为此提出了一些方法但是这些方法仍然关注于在封闭数据集上检测。 二、The UniDetector Framework Step1: Large-scale image-text aligned pre-training. 采用RegionCLIP参数We adopt RegionCLIP pre-trained parameters for our experiments. Step2: Heterogeneous label space training.
1、对于处理不同来源的数据考虑三个问题架构、采样和损失函数选择 1提出了三种处理不同来源标签的架构 2训练大规模数据集一个不可避免的问题是长尾效应。之前用在封闭数据集上解决这个问题的方法不太管用因为通用检测器有没见过的类别。对于语言嵌入长尾问题的不利影响可以忽略不计。因此我们采用了随机采样器。(With language embeddings, the adverse effect of the long-tailed problem becomes negligible. We thus adopt the random sampler.) 3损失函数 使用基于sigmoid的损失函数同时当类别数量增加时为了避免基于sigmoid的分类损失过大随机抽取一定数量的类别作为负类别。 2、解耦RPN区域生成和ROI分类的训练 1传统的两阶段目标检测器包括backbone encoder, a RPN and a RoI classification module。RPN是类别无关的使用与通用目标检测但是特定类别的RoI分类模块依然不能用于罕见类别。所以作者解耦了这两个阶段分别训练。也就是用ImageNet预训练参数初始化RPN模块类别不相关方式训练训练完成后就会产生一系列region proposals。然后对于这些区域ROI分类模块用Fast RCNN方式训练这个阶段用imagetext预训练参数初始化来预测没见过的罕见类别。用到的这两种预训练参数包含互补信息对通用检测提供了理解信息。 2CLN模块是在RPN模块后面ROIHead 、、分别是RPN和ROI的localization confidence以及ROIHead的classification confidence。 Step3: Open-world inference. 提出概率对准 开放世界推理阶段有个问题训练集中出现的类别基础类别推理得出的分数会高于罕见类别这样就会使检测器忽略大量的没见过的类别实例。于是作者在后处理阶段提出了概率对准目的是降低基础类别概率增加没见过类别的概率概率对准公式如下 是类别的先验概率值越大说明模型越偏向这个类别可以在测试集上推理一遍根据得到的结果中每个类别的数量获得的值如果测试集太小也可以使用训练集。是超参数。
最终的预测分数使用上面公式的和CLN模块的目标分数相乘再引入超参数β得到 三、一些训练细节
训练数据集
COCO80类稠密高质量人工标注作者从中随机采样了35K训练
Objects365365类更大规模作者从中随机采样了60K训练
OpenImages500类别许多标注稀疏并且是脏数据作者从中随机采样了78K训练
推理数据集
LVISLVIS v0.5有1230类别LVIS v1有1203类别
ImageNetBoxes:3000多类别
VisualGenome:7605类别相当一部分数据是机器标注所以噪声非常多 实现细节使用mmdetection实现选择ResNet50-C4 based Faster RCNN as our detector, initialized with RegionCLIP pre-trained parameters。超参数设置0.010.60.3 四、一些实验结果