炼数成金 门户 商业智能 深度学习 查看内容

CVPR清华大学研究,高效视觉目标检测框架RON

2017-7-12 18:32| 发布者: 炼数成金_小数| 查看: 21683| 评论: 0|原作者: 孔涛、孙富春等人|来自: 新智元

摘要: 一项由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 ...

网络 工具 测试 计算机 框架 方法

一项由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 接收。论文题目是 RON: Reverse Connection with Objectness Prior Networks for Object Detection。研究者包括孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣。

基于深度网络的目标对象检测可以分为 region-based 和 region-free 两种方法

目标对象检测领域正在取得重大进展,这主要得益于深度网络。当前较好的基于深度网络的目标检测框架可以分为两个主要方法流派:基于区域的方法(region-based)和不基于区域(region-free)的方法。

基于区域的方法将对象检测任务分为两个子问题:第一阶段,将一个专用的候选区域生成网络(region proposal generation network)嫁接到可以生成高质量候选框的深度卷积神经网络(CNN)上;然后,在第二阶段,一个区域性的子网(region-wise subnetwork)被设计来分类和改进这些候选框。使用非常深的 CNN ,Fast R-CNN 工作流程最近在主流对象检测基准上显示出了高精度。

region proposal 阶段可以拒绝大多数背景样本,因此对象检测的搜索空间大大减少。多阶段训练过程一般是开发用于区域候选生成和后检测的联合优化。在 Fast R-CNN 中,区域性子网反复评估成千上万个 region proposal,以给出检测分数。在 Fast R-CNN 工作流程下,Faster R-CNN 与检测网络共享全图像卷积特征,实现几乎零成本的 region proposal。最近,R-FCN 试图通过添加敏感位置的分数图,使 Faster R-CNN 的 unshared per RoI 计算可共享。然而,R-FCN 仍然需要区域候选网络产生的 region proposal。为了确保检测精度,所有方法都将图像的大小调整到足够大的尺寸。在训练和推理时间内,将图像投喂给深度网络时,会有资源和时间的消耗。例如,使用 Faster R-CNN 预测(将约 5GB GPU 内存用于 VGG-16 网络)每个图像通常需要 0.2 s。

另一个解决方案是不基于区域(region-free)的方法。这些方法将对象检测视为一次性(a single shot)问题,使用全卷积网络(FCN),从图像像素一直处理到边界框坐标。这些检测器的主要优点是效率高。从 YOLO 开始,SSD 试图用多层深度 CNN 处理物体检测问题。使用低分辨率输入,SSD 检测器可以获得较先进的检测结果。然而,这些方法的检测精度仍有改进的余地:(a)没有 region proposal,检测器必须在检测模块就要抑制所有的负候选框。这将增加对检测模块进行训练的难度;(b)YOLO 用最顶端的CNN 层检测物体,没有深入探索不同层的检测能力。 SSD 尝试通过添加前一层的结果来提高检测性能。然而,SSD 仍然受困于 small instance 的问题,主要是由于中间层的信息有限。这两个主要瓶颈影响了方法的检测准确性。

是否能够结合两种方法的优势,并消除其缺点?
这两个解决方案的成功,也引出了一个关键问题:是否可能开发一个能够巧妙地结合两种方法的优势并消除其主要缺点的良好框架?通过弥合基于区域的和不基于区域的方法之间的 gap,研究者对这一问题进行了回答。为了实现这一目标,研究者关注两个基本问题:(a)多尺度对象定位。各种尺度的物体可能出现在图像的任何位置,因此应考虑成千上万个具有不同位置/尺度/方位的区域。先前的研究表明,多尺度表征将显著改善各种尺度的物体检测。然而,这些方法总是在网络的一层检测到各种尺度的对象。利用研究者提出的反向连接,对象将在其相应的网络尺度上被检测到,这更容易优化;(b)负空间挖掘(Negative space mining)。对象和非对象样本之间的比例严重不平衡。因此,对象检测器应该具有有效的负挖掘策略。为了减少对象搜索空间,研究者在卷积特征图上创建了 objectness prior,并在训练阶段用检测器联合优化。

因此,研究者提出了 RON(Reverse connection with Objectness prior Networks)对象检测框架,将基于区域和不基于区域的方法的优点联系起来。


上图是 RON 对象检测总览。给定一张输入图像,网络首先计算骨干网络的特征。然后,(a)添加反向连接;(b)生成 objectness prior;(c)在相应的 CNN 尺度和位置上检测物体。



上图是生成自特定图像的 objectness prior。在此例中,沙发表现为(a)和(b),棕色的狗表现为(c),斑点狗表现为(d)。在 objectness prior 的引导下,网络生成了检测结果。

更多根据图像生成的 Objectness Prior 图

摘要


我们提出了 RON,一个有效、高效的通用对象检测框架。我们的想法是巧妙地结合基于区域(region-based,例如 Faster R-CNN)和不基于区域(region-free,例如 SSD)这两种方法的优点。在全卷积架构下,RON 主要关注两个基本问题:(a)多尺度对象定位和(b)负样本挖掘。为了解决(a),我们设计了反向连接,使网络能够检测多层 CNN 中的对象。为了处理(b),我们提出了 objectness prior,显著减少对象搜索空间。我们通过多任务损失函数联合优化了反向连接、objectness prior 和对象检测,因此RON 可以直接预测各种特征图所有位置的最终检测结果。

在PASCAL VOC 2007,PASCAL VOC 2012 和 MS COCO 基准测试的大量实验证明了 RON 的出色性能。具体来说,使用 VGG-16 和低分辨率 384×384 输入,网络在 PASCAL VOC 2007 上获得 81.3% mAP,在 PASCAL VOC 2012 数据集上获得80.7% mAP。数据集越大,难度越大,优势就越明显。在 MS COCO 数据集上的结果就证明了这一点。测试阶段使用 1.5G GPU 内存,网络速度为 15 FPS,比 Faster R-CNN 计数器快 3 倍。

论文地址:https://arxiv.org/abs/1707.01691

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-9-18 21:26 , Processed in 0.148578 second(s), 24 queries .