Sleep like a pillow

Deep Learning関係の話。

論文読み FCOS: Fully Convolutional One-Stage Object Detection

論文リンク

arxiv.org

実装リンク

tinyurl.com

どんなもの?

  • ICCV 2019。
  • アンカーフリーな物体検出手法のFCOSを提案。
  • MS COCOにおいて、従来のCenterNetなどのアンカーフリー手法や、RetinaNetなどのアンカーベース手法をはるかに凌駕するAP 44.7%を達成。

技術のキモ

Fully Convolutional One-Stage Object Detector

  • 特徴マップの各画素で物体のクラスc(背景の場合はc=0)と、その画素から物体のbounding box (bbox)の上下左右の4サイドまでの距離(l, t, r, b)を推定する。
    • (l, t, r, b)は必ず0より大きいため、ネットワークの出力xに対してexp(x)をとる。

  • 学習時には、画素がGTのbbox内にある場合はその画素のクラスは前景(=positiveサンプル)、bbox外の場合は背景(=negativeサンプル)とする。
  • 画素が複数の物体のbboxの重なり内にある場合は、bboxの面積が小さい方の物体の(l, t, r, b)をその画素から推定する。

  • 従来のアンカーベースの手法がGTのbboxとIoUが高いアンカーのみをpositiveサンプルと見做していたのに対して、FCOSはbbox内の画素をすべてpositiveサンプルと見做すため、より多くの前景サンプルを学習に利用することができる。このことが、FCOSが従来のアンカーベース手法を凌駕する検出精度を達成した理由の一つだと著者は述べている。

Loss Function

  • クラス分類はfocal loss、回帰はIoU lossで学習する。

Multi-level Prediction with FPN for FCOS

  • Recallを高めるのと、複数の物体のbbox重なり内にある画素を、どの物体のbboxの推定に使えばよいか曖昧になる問題(性能を下げる要因)を回避するために、FPNを使用する。
  • オリジナルのFPNと同様に、異なるレベルの特徴マップ(P3~P7)それぞれで、異なるサイズの物体を検出する。
  • アンカーベース手法のFPNでは、GTのbboxを各特徴マップのスケール関係なく、とにかくIoUが最も高いアンカーに割り当てていたのに対して、FCOSではGTの(l, t, r, b)の大きさでどの特徴マップに割り当てるか決定する。
    • 例えば、特徴マップP4にはGTの(l, t, r, b)の最大値が64~128のbboxを割り当てる。
  • これによって、前述の曖昧さを緩和し、検出精度を高めることができる。
  • オリジナルのFPNと同様に、各レベルの特徴マップに対するヘッドは、重みを共有する。しかし、各レベルの回帰ヘッドはそれぞれ異なる範囲の値を推定する必要がある(例えば、P3は[0, 64]なのに対して、P4は[64, 128])。そのため、各レベルの回帰ヘッドは学習可能なスカラーs_iを持ち、exp(s_i*x)を出力することで対応する。

Center-ness for FCOS

  • 物体の中心から離れた画素から推定された低質なbboxによって、検出精度が低下するのを防ぐために、centernessを推定するヘッドを導入する。
  • centernessのGTは以下の式のようなGTのbboxの中心からの距離で定義される。

  • centernessを推定するヘッドは、BCE lossで学習する。
  • 推論時は推定したcenternessの値を検出スコアに掛け合わせることで、低質なbboxを抑制する。

  • centernessを推定するヘッドは、分類ヘッドの分岐に追加する。

さらなる精度向上のためのtrick

  • 以下のような変更を施すことでAPが1.5%向上する。
    • centernessを推定するヘッドは、分類ヘッドの分岐ではなく、回帰ヘッドの分岐に追加する。
    • bboxの中心領域のみをpositiveサンプルと見做す。
      • centernessはあったほうが精度がよい。centernessを使いつつ中心領域のみをpositiveサンプルと見做すことで、低質なbboxをより減らすことができる。
    • GIoU lossを用いる。
    • 回帰のGTをFPNストライドで正規化する。

有効性の検証

  • MS COCOにおいて従来手法を上回る検出精度を示している。