Going deeper with Image Transformers
論文リンク
実装リンク
どんなもの?
- ViTにLayerScaleとclass-attention layersを導入することで、層数の多いViTの性能を大幅に向上させることができた。
- LayerScale
- 学習可能な対角行列 (対角成分は0に近い値で初期化) を各residual blockの出力に追加する。
- class-attention layers
- Imagenetのtop-1 accuracyで86.5%。現在のSOTAに匹敵する性能をより少ないFLOPSとパラメータ数で達成した。
- さらにImagenet-RealとImagenet-V2でSOTAを達成した。