cornerNet

Motivation:目前主流的 one/two stage 的 SOTA 目标检测算法都基于 anchor。这就带来两个不便 1)大量的 anchor 对应正负样本不均衡,模型训练缓慢 2)需要手动设计 anchor 的尺寸/比例。本文受人体姿势估计启发,提出一个 anchor-free 的算法

https://arxiv.org/pdf/1808.01244.pdf
Fig 1. cornernet 架构

contributions

  1. 本文将传统的 bbox 预测转化为预测物体的左上角和右下角的 corner pair。简单说就是 convnet 先为所有的 左上角/右下角 分别预测 heatmap 。然后为每个检测到的 corner 生成一个 embedding vector。因为属于同一个目标的两个 corner 的 embedding vector 是相似的,通过训练网络判断相似性,找到属于同一个目标的 corner pair 即可检测到目标。
  2. 提出 corner pooling 用于定位 corner vertices。因为 bbox 的左上角/右下角点并没有特殊的局部信息可以捕捉,所以本文提出 corner pooling — 可以有效地从目标区域整体捕捉到左上角/右下角的位置信息。
corner pooling 实现也很高效,而且比预测 bbox 少两个标量信息

Detecting Corners

两组heatmap,一组预测 top-left corner,一组预测 bottom-right corner,每个 heatmap 有 C 个 channel,代表 C 类(无背景),尺寸是 W*H,每个 channel 是一个表示对应类别定点的 binary mask。

对于每个顶点,只有跟 gt 的顶点匹配的时候才是正样本,其它的都是负样本。但是这样正负样本显然极不平衡。所以作者在训练的时候加了点料:在以每个 gt 顶点(只限左上/右下)为圆心,半径为 r 的区域中的点都是正样本。确定圆半径:在圆内的点形成的 box 与 gt 的 IoU 不小于 t(t=0.7)。针对 heatmap ,作者使用了 focal loss。如下图:

但是 heatmap 与 input 的size 相去甚远。直接预测 corner 的位置对小物体不太友好(YOLO 也是这种操作),遂预测 offsets。

Grouping Corners

输入图像一般包含多个目标,并且相应地生成多个目标的左上角和右下角。然后顶点要分组。这就用到了另一篇论文的 idea:Associative Emdedding。简单说就是,top-left 和 bottom-right corner 各预测一个 embedding vector,距离小(相似度高)的 corner pair 构成一个 box (一个图多个目标,多对点,因此确定group是必要的,channel=1)。具体如下:

Hourglass Network

CornerNet 的 backbone 是 Hourglass Network,由一个或多个Hourglass module 组成。Hourglass module:

  • 卷积 + max pooling 进行下采样
  • 上采样 + 卷积恢复到原尺度,max pooling有信息丢失,将之前相同尺度的 feature 与现在相加,即 shortcut。
  • 多个模块连接可以得到更高维信息。且包含了全局和局部的信息

Train

网络采用随机初始化,输入尺寸 511*511,输出128*128。以及传统的数据增强方式(random horizontal flipping, random scaling, random cropping and random color jittering, which includes adjusting the brightness, saturation and contrast of an image.)。以及 focal loss。

Testing

  • 在 heatmap 层后接 3*3 的 max pooling 层进行非极大值抑制(NMS)。
  • 取 top 100 的 top-left 和 bottom-right corner。
  • corner 位置根据 offset 调整。
  • embedding L1 距离,距离大于 0.5 或非同类别被剔除。
  • top-left 和 bottom-right corner 的平均 score 作为检测的score。
  • 输入图不 resize,保持原始分辨率,用 0 填充
  • 原始图像和fliped图像均测试,结合两个的结果,通过soft-nms 抑制冗余检测,最多检测 100 个目标。

Results

可以看出 cornernet 在 one stage 上效果最好

Discussion

Many tasks of CV are interlinked. CVPR2018 best paper [8] also confirms this view. Finding similarities in different sub-areas and migrating algorithms in different fields is a trend in CV industry.

Share this to:

发表评论

电子邮件地址不会被公开。 必填项已用*标注