DeepViT: Towards Deeper Vision Transformer
論文リンク
どんなもの?
- Vision Transformer (ViT) は、層数を深くした際にCNNよりも性能がサチりやすい。
- ViTは層が深くなるにつれてattention mapが似てくる傾向があり、ある層を過ぎるとほとんど同一になってしまう。これはViTの深い層では、self-attentionが表現学習のための効果的な機構を学習できず、モデルが期待した性能を得られないことを示している。
- 上記の洞察に基づき、シンプルかつ効果的な方法であるRe-Attentionを提案。
- Re-Attentionは、通常のMulti-Head Self-Attention (MHSA) に、「各ヘッドの正規化前のattention mapにヘッド数×ヘッド数のtrainableな行列を掛ける」という手順を加えたもの (手順適用後の各ヘッドは全ヘッドの重み付き和になる)
- これによって、異なるヘッド間の相互作用を利用して相補的な情報を収集することで、attention mapの多様性を向上させる。
- 32層のViTモデルのMHSAをRe-Attentionに置き換えることで、ImageNetのTop-1 accuracyが1.6%向上した。