M2Det

今年発表されたone-stage detectorのSOTAで、構造がとてもエレガントです。

著者によるPyTorch実装 github.com

M2Detとは？

既存のone-stage detectorで用いられているfeature pyramidは、分類タスク用のモデルの特徴マップから構成されているため、物体検出に最適ではない可能性がある。さらに、それぞれの特徴マップは単一のレイヤからしか作られていない。
M2Detでは、backbone network中の異なるスケールの2つの特徴マップをconcatしたものをBase featureとして用いる。
Base featureに対してU-Net likeなsubnetworkを複数回かけ、それぞれのsubnetworkの特徴マップをfeature pyramidとして用いることで、様々なスケールかつ抽象レベルの特徴マップを持つMulti-level Feature Pyramidを生成し検出に用いる。
精度と実行速度においてSone-stage detectorのSOTAを達成。
ベースとなっているのはSSDで、SSDのFPNをMulti-level Feature Pyramidで置き換えたイメージ。

FFMv1では、backboneの特徴マップからBase featureをつくる
backbone内の最も小さいスケールの特徴マップの中で最も深いもの(VGG16のconv5_3)と、二番目に小さいスケールの特徴マップの中で最も深いもの(VGG16のconv4_3)をとってきて、convによるチャンネル数の削減とupsampleでconv5_3のスケールをconv4_3に合わせてconcatしたものがBase feature。

TUMはU-Net likeなsubsetwork。
U-Netと異なり各ブロックのconvは一層だけ (論文中ではThinと表現されている)。stride2のconvでスケールを落としていく(論文だとスケールは6段階なのでブロック数はencoderとdecoderそれぞれ5)。
encoderとdecoderのマージはconcatではなくelement-wise sum。
Multi-level Fature Pyramidに用いるために、decode部分の各スケールごとにconv1x1をかけて特徴マップを出力する。
TUMは何回か繰り返す(論文だと8回)ことで、異なる抽象レベルの特徴マップを獲得することができる。