当前位置：首页 > 编程日记 > 正文

深度学习目标检测法进化史，看这一篇就够了

编程日记 2024-12-30 12:10:00

640?wx_fmt=jpeg

作者 | 黄浴，奇点汽车美研中心首席科学家兼总裁

来源 | 转载自知乎专栏自动驾驶的挑战和发展

本文将介绍自动驾驶中的深度学习目标检测的基本概念和方法，并对几个主要 Anchor free 方法进行了比较，希望对读者有所帮助，以下为正文：

Anchor free深度学习的目标检测方法是回归，以前是没有anchor（“锚”？）的，现在觉得还是去掉anchor好，主要是因为灵活性强，今后硬件芯片兼容性好。

回顾一下，目标检测分单步和两步，单步法的历史中从SSD和YOLO-2开始引入锚框(anchor box)，而两步法直到Faster RCNN才开始采用“锚”的想法。

什么是锚框呢?其实就是固定的参考框。锚框的出现，使得训练时可以预设一组不同尺度不同位置的锚框，覆盖几乎所有位置和尺度，每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标，这样问题就转换为"这个锚框中有没有认识的目标，目标框偏离锚框多远"的问题。

UnitBox: An Advanced Object Detection Network
Densebox
Yolo-1/（-2/3）
CornerNet
ExtremeNet
FSAF: Feature Selective Anchor-Free
FCOS: Fully Convolutional One-Stage
FoveaBox
Center and Scale Prediction: A Box-free Approach for Object Detection
Region Proposal by Guided Anchoring(GA-RPN)
CenterNet: Objects as Points
CenterNet: Keypoint Triplets for Object Detection
CornerNet-Lite: Efficient Keypoint Based Object Detection

UnitBox: 一个先进的检测网络

主要思想：Intersection over Union (IoU) loss function for bounding box prediction

架构

IoU loss vs l2 loss

l2 loss和IoU loss 结果比较

DenseBox：统一地标定位和目标检测

基本思想：直接预测目标框和目标类。

系统流水线:1) 图像金字塔. 2) 类似编码器-解码器. 3) feature map 转换成 bounding boxes，加NMS处理。

YOLO目标检测

检测定义为一个张量的回归问题，直接通过张量的估计得到目标框位置和类别概率。

注：之后YOLO-2/3版采用了anchor方法，这里也加在一起参考。

YOLO9000: 更好、更快、更强

Darknet-19：19卷积层和5个最大池层

9418 种类别的WordTree

YOLOv3: 逐步改进

CornerNet: 将对象检测为配对关键点

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的神经网络会预测类似的嵌入。

将对象检测为组合在一起的一对边界框角

下图是定位的角点池化技术：每个特征图通道沿着两个方向取最大值，然后求和。

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

定义loss函数聚类corner：push和pull

ExtremeNet：通过分组极端点和中心点进行自下而上的物体检测

主要思想：也是将目标检测变成了纯粹关键点估计问题，包括目标的4个extreme points 和1个中心点，将这几何校准的5个点组成一个目标框。

下图是系统流程图：类似CornerNet，对每个目标类，CNN网络预测5个热图，只有几何中心的热图响应足够大才会生成目标框。

该网络预测每个类别的四个极端点热图和一个中心热图

如下是模型的测试流程图：输入图像得到5个C-通道热图，4个2-通道类别无关的偏差图（offset map）。热图是通过加权逐像素逻辑回归（logistic regression）训练得到，. 而偏差图则是由平滑L1 损失函数训练的。

下图是中心分组（Center grouping）算法：输入是5个热图，输出则是带有可信度的目标框。

下图是边缘聚集的结果：当一个边缘的多个点都成为extreme point，可见边缘聚集使中间像素的可信度得到增大。

FSAF：功能选择性无锚模块

主要思想：基于特征金字塔网络(feature pyramid structure，FPN)的在线特征选择能力，在训练时可以动态分配每个实例到最适合的特征层，在推理时能够和带锚的模块分支一起工作，最后并行地输出预测。

基于锚的方法

下图展示一个特征层中的实例监督信号，其中两个损失函数：分类的focal loss 和目标框回归的IoU loss 。

监督信号指示无锚分支的一个特征级别中的实例

在线特征选择的操作如图：每个实例通过无锚框的所有层计算出所有有效区域的分类损失和回归损失，在最小损失的那层构建该实例的监督信号。

FCOS: 完全卷积的一步目标检测

主要思想：是分割，不需要锚框也不需要区域提议。这样，避免了锚框在模型训练中涉及的重叠计算和性能敏感的参数设计环。

FCOS中定义了一个新损失函数“中心度（centerness）”，如下图（红和蓝对应 1 和 0，其他颜色位于其中）。

FoveaBox: 基于锚的目标检测之外

主要思想：直接学习目标存在的概率和目标框的坐标位置，其中包括预测类别相关的语义图和生成类别无关的候选目标框，目标框的大小和特征金字塔的表示相关（如图所示）。

FoveaNet的网络结构如图，一个基于ResNet的特征金字塔网络（FPN）送入两个子网络, 一个做分类，一个做预测。

引导锚定的区域proposal (GA-RPN)

利用语义特征指导抛锚，称为指导性的抛锚。一起预测感兴趣目标的中心位置以及不同位置的尺度和长宽比。有代码：//github.com/open-mmlab/m.

对特征金字塔的每个输出特征图，采用带有两个分支的锚框生成模块分别预测锚位置和形状。一个特征适应模块对原始特征图处理，使其更能体现锚的形状。

Anchor location target

采用多级特征，根据其尺度把真实目标（ground truth objects）提供给不同特征级，相应定义 CR, IR和OR 。

CenterNet: 目标定义为点

把目标定义成一个单点，即目标框的中心点（下图），检测器采用关键点估计找到中心点并从其关键点的特征回归其他目标特性，如大小，3D位置，朝向和姿势。

下面是CenterNet的模型框图，其中数字是步进（stride）量：(a) 沙漏网络；(b) 带转置卷积的ResNet，在每个上采样层前面加了个3 × 3 可变形卷积层（deformable convolutional layer）；(c) 语义分割的DLA-34 (Deep layer aggregation)；(d) 修正的 DLA-34，在可变形卷积层加更多的跳线（skip connections）上采样步骤。