論文読み EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse
どんなもの?
- パラメータ数が0.1M以下の非常に軽量なmulti-scale face detectorのEXTDを提案。精度も大規模なdetectorに匹敵。
- multi-scale detectorはbackbone network中のマルチスケールの特徴マップを必要とするが、EXTDでは異なるスケール間でパラメータを共有する、つまり数層の浅い軽量なbackbone networkを繰り返し再帰的にかけることでマルチスケールの特徴マップを生成する。
技術や手法のキモ
Iterative Feature Map Generation
- ネットワークの反復プロセスは下式のように定義される。 $$ f_i = F(f_{i - 1}), i = 1, \ldots, N, \\ f_0 = E(x). $$
- はbackbone network, は最初のストライド2の畳み込み層を示す。
Model Component Description
- backbone networkでは軽量化のために、MobileNet v2のInverted Residual Blockを用いる。
- depthは6 or 8で、channel widthは32, 48 or 64。
- ReLUよりもPReLU (またはLeakyReLU) の方が良い結果だった。
Classification and Regression Head Design
- 1-stage detectorで問題となるのがnegative sampleとpositive sample間の不均衡性。
- negative sampleのほとんどが最も小さいanchorによるもの。
- そこで、160x160の特徴マップのclassificationレイヤについては、backgroundのスコア推定をチャネルで行い、そのうちの最大のものをスコアとして採用する。これで不均衡性の影響を抑制できるらしい。
- その他はSSDとほぼ同じ。
有効性の検証
- WIDER FACEデータセットを用いて評価。
- 軽量なface detectorのSOTAと比較して圧倒的にパラメータ数が少ないとともに、匹敵する精度を出している。
所感
- アイデアがおもしろい。