Fixing the train-test resolution discrepancy
どんなもの?
- 画像分類タスク(特にImageNet)では、学習時のData AugmentationにRandomResizedCrop、テスト時の前処理にResizeとCenterCropが良く使われるが、この方法ではテスト時の入力画像のスケールの分布が学習時よりも小さくなってしまうことを指摘。
- テスト時の入力画像のサイズを学習時よりも大きくすることで対処。
- テスト時の入力画像サイズを学習時から変更すると、Average Poolingをかけた後の特徴マップの分布も変わってしまうため、後段の層のみfine-tuning。
- この方法でResNeXt-101 32x48dを学習させることで、ImageNetにおいてSOTAであるEfficientNet-B7を上回る精度(top-1: 86.4, top-5: 98.0)を達成した。