【论文阅读+】A2S-Det 从论文书写层面重新阅读

第一次阅读笔记包括翻译和小结

【论文阅读】A2S-Det: Efficiency Anchor Matching in Aerial Image Oriented Object Detection_dujuancao11的博客-CSDN博客

目录

目录结构设计

摘要

1. 介绍

2. 材料和方法

2.1. 数据

2.2 相关工作 

2.3 方法

2.3.1 网络架构

2.3.2. 自适应锚选择

2.3.3. 基于样本平衡的自适应阈值 

2.3.4. 相对参照的坐标回归 

2.3.5. 损失

2.3.6. 实现细节

3.结果

4. 讨论

4.1.  自适应锚点选择的有效性

4.2. CR3模块的有效性 

4.3. 优势和局限性

5. 结论


watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

2. 材料和方法

2.1 介绍数据,这个和平时的论文不大一样。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_13,color_FFFFFF,t_70,g_se,x_16

  • 在航拍图像中,目标的检测是一项具有挑战性的任务,因为许多目标具有大的宽高比和密集的排列。
  • " Most anchor-based rotating detectors assign anchors for ground-truth objects by a fixed restriction of the rotation Intersection-over-Unit(IoU)between anchors and objects, which directly follow horizontal detectors."
    译文1:大多数基于锚的旋转检测器通过锚和直接跟随水平检测器的对象之间的旋转交点(IoU)的固定限制为地面真实对象分配锚。
    (大概率是错误的,which 不是描述objects。)
    译文2:大多数基于锚的旋转探测器通过固定的锚与目标之间的旋转交叉单元[rotation Intersection-over-Unit ](IoU)的限制为ground-truth 物体分配锚,直接跟随水平检测器。
    (这个相当于直接翻译了,中英文差异)
    译文3:大多数基于锚的旋转探测器直接跟随水平检测器,通过固定的锚与目标之间的旋转交叉单元[rotation Intersection-over-Unit ](IoU)的限制为ground-truth 物体分配锚。
    (这个是我的翻译,感觉合理)
  • Due to many directional objects with a large aspect ratio, the object-anchorIoUis heavily influenced by the angle, which may cause
    few anchors assigned for some ground-truth objects.
    译文:由于许多具有较大纵横比的定向对象,object-anchor IoU受角度影响严重,这可能会导致为某些ground-truth对象分配的anchors较少。
  • 在本研究中,我们提出了一种基于样本平衡自适应分配锚点(anchors)的锚点anchor选择方法,我们称之为自适应锚点选择Self-Adaptive Anchor Selection(A2S-Det)方法
  • 对于每个ground-truth对象,A2S-Det通过水平IoU选择一组候选锚点。然后,在候选锚点集合上采用自适应阈值模块,计算候选锚点的边界,以保持正锚点和负锚点的平衡。
  • 此外,我们提出了相对参考坐标回归 coordinate regression of relative reference(CR3)模块来精确回归旋转包围盒。
  • 在一个公开的航空图像数据集上进行了测试,结果表明该方法的性能优于许多单级和两级检测器,实现了70.64 mAP。
  • 一种有效的锚点匹配方法可以帮助检测器在大纵横比的对象上获得更好的性能。

  watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

  • 目标检测是航拍图像信息提取中的一项重要任务。
  • 与自然图像不同的是,航空图像中的目标可能会在任何方向上密集排列,并且具有较大的纵横比,这使得航空图像中的目标的精确检测非常具有挑战性
  • 在物体密集排列的场景中,需要探测器对每个物体进行精确的定位和识别。
  • 此外,物体可能在任何方向上,通过非最大抑制(NMS)的后处理,可能会导致稠密场景中物体丢失。大纵横比的对象很难提取特征和预测边界框。
     
  • 对于任意方向的物体,在普通物体检测器的基础上,提出了许多旋转检测器,将物体检测为旋转矩形,这些检测器来源于文本检测,如RRPN[1]和R2CNN[2]。
  • 此外,旋转目标检测在一定程度上解决了航拍图像中目标密集排列导致的目标缺失问题。
  • 在常见的检测中,检测器为两级检测器和一级检测器,通常认为两级检测器性能更好,一级检测器速度更快。
  1. RRPN[1]和R2CNN[2]都是两级检测器
  2. 考虑到大量的航拍图像,探测器的速度也很重要。近年来的研究表明,单级检测器在航空图像旋转目标检测方面也有很大的潜力。
  • 基于锚的方法和无锚的方法是定义正样本和负样本的两种主要方法。
  1. 基于锚点的检测器在每个特征点上采用预先设定的不同形状的矩形,并按照一定的规则将这些正锚点分配到相应的 ground-truth boxes中。
  2. 无锚探测器通过点、网格或其他规则定义样本。
    在没有预先设定锚点的情况下,无锚点检测器在分配标签过程中节省了时间,但对于航空图像中密集排列的物体,锚点密集的基于锚点的检测器可能比无锚点检测器更好。
  • 航拍图像中物体的特征可能会导致这些挑战:
  1. 样本很难定义。大多数基于锚的旋转探测器通过限制旋转iou来分配锚。如图1c所示,对于高宽比的物体,小的角度偏差可能会导致低iou,这可能会导致为ground-truth物体分配的锚点较少。
  2. 包围盒很难精确回归。大长宽比物体的敏感旋转iou意味着使用旋转iou作为评估方法时,与水平检测器相比,预测的旋转包围盒必须非常精确。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 图1。在旋转目标检测中,纵横比严重影响anchors选择过程。(RetinaNet)
(a)ground-truth对象和选定锚的可视化;(b)对象锚的分布和锚的选择过程;(c)角度对不同纵横比物体的影响。

  • 如图1a所示,固定约束设置为0.5时,船舶对象根据固定约束IoU只选择了一个锚作为正锚。
  • 图1b为top-k锚的IoU分布,根据其IoU阈值将其分为正锚和负锚。
  • 大宽高比锚与物体之间的距离对角度偏差非常敏感。如图1c所示,在相同的角度偏差下,高宽比较大的箱体与旋转箱体之间的IoU较小。
  • 在选择锚点的过程中,锚点的生成遵循一定的规则,与 ground-truth 物体的位置、盒大小、角度可能存在一定的偏差。
  • 在旋转目标检测中,由于锚点选择困难,可能导致对大纵横比目标的训练不足。 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

在本文中,我们讨论了锚点与目标之间的缺失匹配低匹配率是影响检测器训练的两个因素,特别是对于大宽高比的目标。

为了解决这些问题,本文提出了一种基于样本平衡的锚点选择方法来改进锚点选择过程,该方法由三个模块组成。

  1. 首先,利用基于水平IoU的自适应锚点选择模块选择候选锚点,并根据旋转iou的统计阈值将锚点划分为正负锚点;
  2. 对于统计阈值,设计了自适应阈值模块,根据候选锚点集合中iou的旋转情况确定一个正锚点和负锚点之间保持平衡的阈值。
  3. 最后,我们设计了相对参考模块的坐标回归来精确预测旋转包围盒。在这个模块中,对旋转对象的坐标回归和角度回归做了一些改进。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

原文
watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

这项工作的贡献归纳如下:

  • 提出了一种结合水平特征和旋转特征的锚点选择方法。对于候选锚点集合,采用基于样本平衡的自适应阈值模块确定阈值,将候选锚点分为正锚点和负锚点。与DOTA[4]中具有大纵横比的对象的基线相比,有更大的改进。
  • 对于bounding box 预测,相对参考模块的坐标回归可以更精确地预测盒子,也有利于更严格的评估,如06b4ab048f654603ac6da53bd72c3610.png。 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

  • DOTA[4]是航空图像目标检测的大数据集,包含2806张不同分辨率、不同传感器的航空图像。图像大小从800×800到4000×4000像素不等。
  • 本数据集包括飞机、船舶、桥梁、港口、棒球场(BD)、地面田径场(GTF)、小型车辆(SV)、大型车辆(LV)、网球场(TC)、篮球场(BC)、储存库(ST)、足球场(SBF)、环岛(RA)、游泳池(SP)、直升机(HC)等15个类别
  • 在这个数据集中有188,282个实例,它们分别由水平边界框和旋转边界框标记。
  • 数据集正式分为三个部分:训练、验证和测试。我们将这两组训练和验证合并到官方评估服务器的测试数据集上进行训练和测试。
  • 在训练过程中,我们将这些图像分成600×600子图像,子图像的重叠部分为200像素。那些没有任何对象的子图像将被直接丢弃。最后,有30,250个训练子图像

  • 此外,如果需要数据扩充,我们采用在线数据扩充。数据增强方法包括随机旋转随机翻转,其发生概率均为50%。
    对于随机旋转,通过15°的步长,从0到360°随机生成旋转角度。

两级探测器:

  • R-CNN[5]将检测过程分为区域提议阶段和回归阶段,开发了两阶段检测器。
  • Fast R-CNN通过在特征图中生成区域建议来解决计算量大的问题。
  • 两级检测器主要由Faster C-NN[6]中的区域提议网络(RPN)和卷积神经网络(CNN)组成。
    RPN模块产生了许多通过分数来区分前景和背景的建议,如0.7。
    然后,CNN模块以(3/1)的比例随机选择正面和负面建议进行训练。
    在推理过程中,RPN模块生成量化提议,CNN模块根据这些提议预测类别和边界框,避免了大量的窗口,减少了计算量。
  • 随后提出了许多有价值的两阶段检测方法,如Mask R-CNN[7]、FPN[8]、OHEM[9]、ContextAware[10]等。 

单级探测器:

  • 尽管两级探测器比以前更快了。但速度仍然较慢,无法满足实时检测的需要。与二级检测器不同,一级检测器基于特征图中的点定义正、负样本,推理速度更快。
  • 与两级检测器为每个特征点的锚点计算图像特征不同,YOLO[11]等锚点利用特征映射,根据对应的锚点计算类概率和bounding box。
  • 缺点是负样本远多于正样本,使得训练过程困难。为了解决这一问题,RetinaNet[12]提出了focal loss,在positive loss和negative loss之间保持平衡,从而可以训练出一种高性能的单级高检波器。
  • 目前提出了许多单级探测器,如FCOS[13]、CenterNet[14]等。

旋转探测器:

  • 旋转目标检测起源于文本检测
  • RRPN[1]提出了一种基于Faster R-CNN[6]的旋转区域提议网络来检测具有方向的文本。
    RPN定义旋转框为(x,y,w,h,θ), Faster R-CNN[6]定义水平框为(x,y,w,h), (x,y)表示旋转框的质心坐标。
    (w,h)表示旋转盒的宽度和高度。θ表示旋转箱相对于水平坐标系的方向。
  • R2CNN[2]定义旋转框为(x1,y1,x2,y2,w,h), (x1,y1)和(x2,y2)表示前两点的坐标,(w,h)与RRPN中定义[1]相同。R2CNN[2]提出了一种特殊的RoI池化方法,其池化大小分别为7×7、3×11和11×3。
  • 还有许多其他优秀的旋转检测器应用于文本检测,如EAST [15], DRBOX [16], TextBoxes++[17]等。

  • 航空图像目标检测中,提出了许多高性能的探测器。RoI transfromer[18]提出了一种RRoI学习器来学习水平锚点的方向信息,与RRPN模块相比减少了计算量。
  • R3Det[3]提出了一个特征细化模块来重构特征图,达到了特征对齐的目的。在R3Det[3]中,证明了单级探测器在航空图像目标检测方面也具有巨大的潜力。
  • 许多旋转检测器的目标是如何定义旋转盒rotation boxes和如何定义样本。例如,轴学习[19]基于自由锚点的思想预测旋转对象的轴,性能好,推理速度快。
  • O2-DNet[20]将方框boxes定义为两条中间线和中间线的交点。还有许多其他的高性能旋转探测器,如SCRDet [21], Gliding Vertex [22], CenterMap OBB[23]等。

标签分配:

  • ATSS[24]讨论了在样本定义方法相似的情况下,基于锚点的方法(RetinaNet[12])与无锚点的方法(FCOS[13])的性能相同。
    影响性能的是定义正样本和负样本的方法,而不是如何回归盒子。用锚还是用点做回归并不重要。
    因此,ATSS[24]提出了一种通过动态阈值定义样本的自适应训练样本选择方法
  • FreeAnchor[25]提出锚的最大k个IoU为潜在的阳性样本。在计算损失时,每个锚都有一个权重来决定回归效果。
    在训练开始时,由于回归效果不好,所有锚点的权值相似,但随着训练的进行,部分锚点回归良好,权值有所提高。
    在训练结束时,只有几个锚的重量远远超过其他锚。
    总之,FreeAnchor[25]通过预测来定义正样本和负样本,这是一种特殊的标签赋值方法。
  • MAL[26]提出了一种多锚点学习方法来评估IOU选择的锚中的正锚点。
    该评价方法采用分类评分和位置评分相结合的方法。
  • PISA[27]表明,影响成绩最大的不是hard样本,而是主要样本。

相关工作需要专门找相关的一些文献,并学会提炼总结。

  • 我们采用骨干网、特征金字塔网和检测器头作为基本结构。
  • 与RetinaNet[12]类似,feature map中的每个点都有几个旋转锚,它们负责预测对象。
  • 对于探测器头部,我们提出了一个基于相对参考模块的坐标回归模块
  • 训练过程中,我们提出了一种自适应锚点选择模块来定义正锚点和负锚点,从而在正锚点和负锚点之间保持平衡。
  • 总的来说,我们的工作主要集中在训练过程旋转检测头

2.3.1 网络架构

  • 我们的主要网络架构使用ResNet架构特征金字塔网络骨干网,从图像中提取丰富的、多尺度的、定向的特征信息。
  • 如图2所示,ResNet生成C3,C4和C5,表示特征金字塔网络的P3到P7。
    P3到P7为预测的特征级别,特征地图大小为输入图像(8、16、32、64、128)倍的下采样比。
  • 在本文中,所有输入图像的大小都被调整为800×800
  • 有两个子网负责预测每个Pi的类别和边界盒,其中i = 3, 4, 5, 6, 7。
  1. 类别预测分支的最终特征图预测K值表示每个特征点中的每个锚的k类别,在每个特征点中有一个区域锚。
  2. 通过Sigmoid函数将预测值转化为各类别的概率。
  3. 边界盒预测分支中,最终的feature map预测了一个元组(δx,δy,δw,δh,δθ)表示相对于锚点的偏差,需要解码为(x,y,w,h,θ)。
  • 另外,两个子网共享所有特征层的参数权值,大大减少了计算量。
  • 除了使用旋转锚点和预测边界盒预测分支输出特征图中5个值的元组外,网络架构几乎与retanet[12]相同。这些差异的实现细节在2.3.4节和2.3.6节中表示。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

图2。主要介绍了我们的探测器结构训练过程

  1. 在这个图中表示在每个特征点有一个旋转锚,K表示需要预测的K类别;
  2. 标签贴图中的点的值表示该锚匹配的目标;
  3. 正锚集是通过一个固定的阈值水平IoU(简称HIoU)来选择的,这是一个粗略的选择;
  4.  AT模块根据旋转IoU的分布(简称为RIoU)计算阈值,通过该阈值在精细选择过程中选择最终的正锚点;
  5. (δx,δy,δw,δh,δθ)为锚点与物体之间的偏差,需要进行解码。

2.3.2. 自适应锚选择

  • 基线旋转检测器源于RetinaNet,对不同纵横比的物体具有不平衡性能。
  • 由于锚点选择过程不灵活,高宽比的对象匹配的训练锚点较少。
  • 我们提出了一种自适应锚点选择方法,该方法可以自适应地定义锚点。
    如图3所示,对象有很多锚,这些锚是无序的。
    候选锚点由水平IoU选择,以确保水平特征相对应。
    然后,通过旋转IoU,使用由AT模块计算的自适应阈值来选择正锚点。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 图3。描述了锚点选择过程的可视化。H-IOU和R-IOU在图4中描述。AT module在2.3.3节中描述。

本节中,自适应锚点选择方法结合了水平特征旋转特征

如算法1所示,图像上有ground-truth box集合(G),所有feature map上有锚点集合(A)。

在训练过程中,A中的每个锚点要么被分配到ground-truth box (G)中的一个,要么被定义为负锚点。

对算法的描述部分:

  • 1:首先,我们计算A和G之间的水平lou和旋转lou,表示HD和RD。
  • 2:对于每个锚点,具有最大旋转lou的ground-truth box被分配给该锚点,确保锚点只有一个ground-truth 。
  • 3--->6:其次,对每个ground-truth box(g),用条件不等式(HDg≥0.6)选择一组候选锚点。
  • 7:第三,我们根据统计方法计算一个阈值Tg来区分候选锚点。
  • 自适应计算阈值Tg的功能在第2.3.3节描述,并在第4.1节讨论。
  • 8--->13:对于每个候选锚框(d),锚点被分配到ground-truth (g),如果RIoU(d,g)≥Tg则定义为正锚点。
  • 14--->15:最后,该算法选择一组正锚点(P),其余锚点定义为负锚点(N)。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

此外,我们定义了水平IOU和旋转IOU,如图4所示。对于水平IoU,旋转框根据旋转框的顶点转换为水平框,水平框根据水平框计算。对于旋转IOU,计算方法与通用IoU相同,使用旋转交点区域和旋转框区域。 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 图4。对于旋转锚和对象之间的重叠程度,有两种评估方法。(a) 水平IOU的形象化;(b) 旋转IOU的可视化。

2.3.3. 基于样本平衡的自适应阈值 

稍微解读一下子

此章节主要涉及到数学知识公式,从数学层面说明问题解决问题。

  • 关键问题是如何自适应地计算阈值(Tg)统计方法,均值和标准差是常用的统计参数,它们的组合是描述正态分布的常用方法。
  • Tg是划分正锚和负锚的关键参数,均值+标准差(Mean+Std)可能是划分锚的有效方法,而锚和对象之间的IOU为正态分布。

问题转化


  • 问题描述为优化问题。问题的关键是如何定义样品平衡,并解决。

    标准差反映了数据的离散程度。

    使用标准差来描述旋转IOU的稳定性。

       优化目标是最小化|Std(C1)−Std(C2)|,它表示这两个集合(C1,C2)之间的平衡程度。 

  • 公式层面问题的化简求解

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16


watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16
watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

以下是原文翻译部分 

在2.3.2节中,我们讨论了自适应锚点选择方法的算法流程。其中一个关键问题是如何自适应地计算阈值(Tg)

基于统计方法的函数是合理的。统计数据因样本不同而不同。均值和标准差是常用的统计参数,它们的组合是描述正态分布的常用方法。

在本节中,我们将讨论如何正确地描述正样本和负样本的分布。一般来说,根据借据将锚分为积极锚和消极锚,它们可以表示为:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16  

这里,RIoU(Ag,g)表示锚点(Ai)和对象(g)之间的旋转IOU。

Tg是划分正锚和负锚的关键参数,均值+标准差(Mean+Std)可能是划分锚的有效方法,而锚和对象之间的IOU为正态分布。

对于那些具有大宽高比的对象,IOU的分布可能是随机的。

自适应锚点选择方法的目标是找到一个旋转边界将锚点划分为两组,并在正锚点和负锚点之间保持平衡。算法可以描述为:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

由式(2)(3)将该问题描述为优化问题

问题的关键是如何定义样品平衡,并解决。

标准差反映了数据的离散程度。

在这个公式中,使用标准差来描述旋转iou的稳定性。优化目标是最小化|Std(C1)−Std(C2)|,它表示这两个集合(C1,C2)之间的平衡程度。

如果需要精确的解,求解过程会比较复杂。考虑到速度和有效性,这部分采用估计的方法计算出一个粗略的tg:
watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

 那么,算法可以简化为:
watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xhcmstZGo=,size_20,color_FFFFFF,t_70,g_se,x_16

2.3.4. 相对参照的坐标回归 

在普通检测器中,框回归方法如图5中(a)所示。大多数旋转探测器都采用水平探测器的这种回归方法,如图5中(b)所示。框编码方法可以描述为:

  (x,y,w,h,θ)表示物体的边界框,(xa,ya,wa,ha,θa)表示锚点的边界框。对于对象,(x,y)为边界框的质心坐标,(w,h)为宽度和高度。θ表示包围盒的旋转角度,(tx,ty,tw,th,tθ)是我们希望精确回归的值,表示相对于相应锚的偏移量。

  图5 (a)公共检测编码方法;(b)类似于水平检测的旋转检测编码方法;(c)基于相关参考,我们提出的编码方法。

水平检测时,箱体边缘平行于图像轴线;旋转检测时,旋转箱体与图像轴线存在夹角。

因此,水平检测的坐标回归方法不能很好地描述(δx,δy)与旋转iou旋转检测之间的关系。

为了解决这一问题,在相关文献的基础上,提出了一种坐标回归方法。新的坐标编码方法如下: 

我们建立了以(xa,ya)为原点的坐标系。x轴和y轴分别平行于锚的宽度和高度。新的坐标系和(δx,δy)如图5c所示。在推理过程中,对应的坐标译码方法可以描述为:

 (regx,regy)表示网络输出的坐标,需要将其解码为(predx,predy)。旋转箱的角度(θ)也需要预测。角度通常在[−90,90]中定义,这可能会导致边界的模糊。例如,δ - 89°和89°之间的δ应该是2°,而不是178°。新的theta编码方法如下所示:

 结合(3)、(4)、(6)式,基于相对参考的箱形回归方法可描述为:

2.3.5. 损失

损失函数包括分类损失和回归损失。

  • 分类损失计算所有锚点的损失,包括正锚点和负锚点。
  • 回归损失只计算那些正锚的损失。可以表示为:

 

 Lcls和Lreg分类损失和回归损失。分类损失为focalloss,回归损失为平滑L1损失,(λ1,λ2)表示超参数Lcls和Lreg的权重。

Npos是积极锚的数量。(tx,ty,tw,th,tθ)为Smooth L1的输入参数,可以表示为:

2.3.6. 实现细节

该方法的代码是在基于RetinaNet[12]和PyTorch[28]的基础上实现的。

对于一些旋转模块,我们参考RRPN[1]。在本文中,我们采用ResNet-50和ResNet-101作为骨干网,并对预训练模型进行初始化。

有两个Nvidia GeForce RTX 2080 Ti gpu,内存为11G,用于实验。

我们对模型进行24 epoch的训练,在DOTA上进行大约90k次迭代。

采用随机梯度下降法(SGD)训练模型。

学习速率初始值为0.01,在60k和82.5 k学习速率衰减步长时,衰减到当前学习速率的10%。

重量衰减和动量分别为0.001和0.9。

锚点生成过程中,纵横比设为(1/ 1,3 / 1,5 /1)。锚定角度设置为(60°、30°、0、−30°、−60°、−90°)。

锚定标度设置为(0.2,4),这意味着锚定尺度为(0.21/4,0.22/4,0.23/4,0.24/4)。

每个特征点有72个锚点,共960k个锚点。损失参数与RetinaNet[12]相同,包括局focalloss和平滑L1损失。

在推理评价阶段,当置信度得分大于0.1时,判断预测是正确的。此外,对每一类设置非最大抑制阈值(NMS)为0.15。

在=0.5的评估方法下,将A2S-Det与表1中的其他旋转探测器进行比较。

在推理过程中,我们将测试图像分成600×600子图像,重叠200,参考R3Det[3]。

A2S-Det的性能优于表1中的大多数探测器,包括一级探测器[3,12,19,20,29–31]和两级探测器[1,2,6,18,32]。

在船上、小型车辆(SV)、大型车辆(LV)、篮球场(BC)、储水池(ST)、游泳池(SP)中,我们的方法实现了最佳性能

对于长宽比较大的类别,A2S Det与其他检测器相比具有明显的优势,其中自适应锚选择方法改进了锚选择过程。预测的可视化如图6所示。

我们的方法旨在提高大宽高比对象的性能,但在Bridge和Harbor上并没有达到最佳性能。

IENet[31]在Bridge上实现了最佳性能,R3Det[3]在Harbor上实现了最佳性能。

在Harbor上,A2S Det mAP与R3Det[3]mAP非常接近,分别为65.29%和65.44%.

对于Bridge来说,A2S-Det的mAP低于几种最先进的探测器(IENet[31]、O2-DNet[20]和R3Det[3])。

从另一个角度来看,如图2所示,在无数据增强的情况下,与基线(RetinaNet-R [12])相比增加了3.01%。 

如表2所示,A2S Det在棒球场(BD)、篮球场(BD)和直升机(HC)等几个类别上的表现都比基线差(看表格得出BD、BD最终效果还是好的

与宽高比较大的对象相反,这些对象的宽高比接近1。

在这种情况下,A2S Det可能会定义许多具有高度负锚的锚,这不利于训练过程,但对长宽比也接近1的飞机和储罐几乎没有影响。

总体而言,飞机和储罐的目标数量较多,这可以弥补锚具选择过程中的不足。

结果分析也很客观,解释了效果差的一些例子的背后原因。

由于锚点生成的随机性,通过固定的旋转IoU限制来定义锚点,可能会导致训练过程中的正锚点较少。

图7中,我们比较了这三种锚点选择方法在锚点可视化方面的差异。

(a)中的原始锚点选择方法通过一个fixed IoU阈值来定义阳性样本。对于宽高比较大的对象,这种锚杆选择方法可能会导致没有锚匹配,如桥梁和港口。

  • A2S-Det是一种灵活的锚点选择方法,与原始锚点选择方法相比,它在锚点选择过程中表现更好,特别是对于高宽比大的对象。
    在A2S-Det中,水平IoU选择的一组候选锚点可以避免在某些特殊情况下不匹配锚点

(b)不带AT模块的A2SDet使用(mean+std)函数作为区分样本的阈值,这是一个经验值。

(c)AT模块能够自适应地找到正样本集和负样本集之间的边界。如图7所示,(c)中选择的正锚似乎比(b)中的正锚更有规律,这在有桥梁和港口的图像中更为明显。

  • IOU(d)的分布来看,AT模块可以根据IOU的特征将候选锚点划分为正锚点和负锚点,而不是根据经验值。

章节2.3.4中提出的CR3 模块解决了回归不准确的问题。

如表2所示,CR3 模块有正向影响。

  • 在不使用CR3模块的A2S-Det基准测试中,如果将CR3模块应用于A2S-Det,总增幅为0.39%。对于那些纵横比大的物体,有明显的增加,尤其是桥梁,LV,船,和Harbor。
    此外,桥梁增加0.55%,LV增加0.3%,港口增加0.5%。
    仅从平均精度(average Precision, AP)来看,CR3模块可能没有太大的优势,而AP的增加并不明显。
  • 为了评估是否正确检测到目标,在evaluate - server[4]中将旋转IOU阈值设置为0.5。
    如果预测的包围盒和 ground-truth box之间的旋转IOU大于阈值,则认为该目标被正确检测到。
    如图8所示,具有CR3模块的A2S-Det的包围盒回归要好于没有CR3模块的A2S-Det的包围盒回归。
    由于旋转IOU阈值为0.5,大多数预测框被判断为正确,而包围框回归有些许偏差,如图8所示。是否精确回归对宽高比较大的对象(桥、港、LV)影响更大。

官方评估服务器只支持=0.5。

为了验证推理,我们在训练数据集上训练模型,在验证数据集上进行测试,验证数据集的性能评价方法使用=0.75和ap∗。AP∗意味着我们从=0.5到​=0.95测试模型,其中IoU  step是0.05,并计算出平均值AP∗。

从表3中可以看出,当桥和港口=0.5时,无CR3的A2S-Det优于有CR3的A2S-Det,但当=0.75时,桥和港口A2S-Det分别增加了1.52%和1.01%。

在更严格的评价方法上(如=0.75), CR3模块的影响更明显,如lv、BC和SBF。  

辩证分析

优势一锚点选择(对应创新点一)

  • 基于锚点的旋转探测器对锚参数和正负阈值依赖性较大,难以调整。
  • 锚参数影响锚生成过程,间接影响锚选择过程,如长宽比、角度和尺度。
  • 锚选择过程直接受到正-负阈值的影响。
  • 正如在第1节中所讨论的,在某些情况下,一些高宽比的对象匹配很少的锚进行训练,从而导致训练不足和表现不佳
  • A2S-Det结合水平特征和旋转特征,完全根据旋转IOU的分布来选择锚点。
  • 我们的方法解决了锚点与对象之间的匹配缺失和匹配率低的问题,特别是对于大宽高比的对象。
  • 如图7中锚选择过程的可视化显示,A2S-Det既适用于一般情况,也适用于极端情况。
  • 为了预测旋转包围盒,CR3模块有助于精确回归旋转包围盒。
  • 如表1所示,我们的方法比大多数旋转探测器有更好的性能,在那些高宽比的物体上显示出很大的潜力。
  • 表2显示,当章节2.3.2,2.3.3和2.3.4中提出的模块应用于基线时(RetinaNet-R[12]),有很大的改进。

优势二自适应阈值

  • 结合水平特征和旋转特征,基于样本平衡寻找合适的阈值,为改进锚点匹配过程提供了可能的方向。
  • 对于比例方面较大的对象,水平特征有利于分类,旋转特征有利于箱形回归,但旋转的IoU和水平的IoU都需要大量的计算,在以后的工作中可能会进行简化。
  • 本文探讨了如何通过锚点的分布来定义正锚点和负锚点。
  • 锚点匹配过程被认为是一个优化问题,其目标是保持正锚点和负锚点之间的平衡。
  • 为了减少计算量,实现端到端的训练,我们简化了目标函数和求解过程。如表1和表2所示,将锚点匹配过程视为一个优化问题显示了巨大的潜力。

局限性

  • 这种方法也有一些局限性。
  • 首先,角度偏差对纵横比接近1的物体影响不大,如plane、BD、ST、BC、RA、HC。
  • 因此,基于旋转IoU分布的自适应锚点选择方法并不适用于所有类别
  1. 表2中,当A2S-Det与基线比较时,BD降低了0.51%,BC降低了2.7%, =0.5时降低了1.93%。
  2. 受惠于大量的物体,A2S-Det的AP在plane 和AT 上没有下降。
  3. 如果对象数量很少,这个限制可能会导致高度接近宽度的对象AP较低。
  • 此外,该方法增加了训练时间。A2S-Det 既需要旋转的IoU,也需要水平的IoU,而AT module的阈值求解过程耗费了大量的时间
  • A2S-Det的训练时间几乎是基线的两倍。A2S-Det的推理过程几乎不受影响,其推理时间非常接近基线。
  • 与现有的旋转探测器相比,该方法存在一些不足之处。
  • IoU不能很好地描述正锚与对象之间的关系。我们的目标是在未来采用一种更好的方法来描述它,并改进这种方法。
  • 提出了一种基于单级检测器的自适应锚点选择方法
  • 针对高宽比大的目标,本文提出了3个模块,分别是自适应锚点选择模块、AT module和CR3模块。
  1. A2S-Det通过改进锚点选择过程提高了大纵横比物体的预测性能
  2. CR3有助于更精确地回归旋转包围盒
  • 在DOTA[4]数据集上设计了多个实验,验证了这些模块在航拍图像目标检测中的有效性。
  1. 该方法与现有的旋转探测器相比,具有更好的性能(=0.5),达到了mAP = 70.64。
  2. 与基线检测器相比,这三个模块的应用平均提高了1.51%。对于比例方面较大的对象,map范围的增幅从0.09%增加到5.23%。
  • 结果表明,一种有效的锚点匹配方法可以帮助检测器更好地学习特征信息,并对大比例方面的对象取得更好的性能。
  • 在未来的工作中,我们将致力于改进该方法,并探索更多潜在的标签分配方法,以提高航空图像中的检测性能。

​​​​​​​