fpn

背景
fpn
结果

本文介绍fpn¹. fpn是巧妙解决深度学习利用难以利用金字塔特征的问题。将高层语义特征传到低层。直接在faster rcnn上使用fpn，在coco数据集上，单模型效果超过所有同期论文，也超过COCO 2016 challenge的冠军。

背景

我们知道传统的物体检测通常都是经过在金字塔上用滑动窗口的方式，提取窗口内特征，对是否是某物体进行分类(svm等)。这样才能检测大小不一各个尺度的物体。但这实际上也是传统算法速度很难提高的原因。如下图a所示。

对于，深度学习，一般使用的是图b的结构。输入图片通过一层层网络层，提取特征。然后在高层特征上进行预测位置，分类。这种结构的缺点就是对于小物体，很难获得精确的定位。而如果在每一层特征（金字塔）每层进行预测，会导致训练变慢而且也会导致训练时候内存暴涨，基本上是不可行的。

当然，在特征金字塔不是唯一的方式。也可以选取某些层进行输出。如图c所示。只选择某些层次进行处理。ssd就是用这种方式。使用这种方式一般没有办法选取太低层的特征，因为这些特征语义信息不强，无法有效分类（ssd最低层选用的conv4_3)。高层信息存在无法检测小物体并精确定位的问题。一般对选取的几层添加额外几层来预测所需要的分类、定位信息。这也浪费了高层特征。需要有一种方式可以重用高层特征。

这就是fpn做的事情。它把高层特征重新带回到低层。然后用底层特征进行精确检测。如图d所示。