Sleep like a pillow

Deep Learning関係の話。

論文読み EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse

どんなもの?

  • パラメータ数が0.1M以下の非常に軽量なmulti-scale face detectorのEXTDを提案。精度も大規模なdetectorに匹敵。
  • multi-scale detectorはbackbone network中のマルチスケールの特徴マップを必要とするが、EXTDでは異なるスケール間でパラメータを共有する、つまり数層の浅い軽量なbackbone networkを繰り返し再帰的にかけることでマルチスケールの特徴マップを生成する。

f:id:uiiurz1:20190624221429p:plain

技術や手法のキモ

Iterative Feature Map Generation

f:id:uiiurz1:20190624065315p:plain

  • ネットワークの反復プロセスは下式のように定義される。 $$ f_i = F(f_{i - 1}), i = 1, \ldots, N, \\ f_0 = E(x). $$
  •  F(\cdot)はbackbone network,  E(\cdot)は最初のストライド2の畳み込み層を示す。

Model Component Description

  • backbone networkでは軽量化のために、MobileNet v2のInverted Residual Blockを用いる。
  • depthは6 or 8で、channel widthは32, 48 or 64。
  • ReLUよりもPReLU (またはLeakyReLU) の方が良い結果だった。

Classification and Regression Head Design

  • 1-stage detectorで問題となるのがnegative sampleとpositive sample間の不均衡性。
  • negative sampleのほとんどが最も小さいanchorによるもの。
  • そこで、160x160の特徴マップのclassificationレイヤについては、backgroundのスコア推定を N_mチャネルで行い、そのうちの最大のものをスコアとして採用する。これで不均衡性の影響を抑制できるらしい。
  • その他はSSDとほぼ同じ。

有効性の検証

  • WIDER FACEデータセットを用いて評価。
  • 軽量なface detectorのSOTAと比較して圧倒的にパラメータ数が少ないとともに、匹敵する精度を出している。

f:id:uiiurz1:20190624221330p:plain

所感