Sleep like a pillow

Deep Learning関係の話。

Going deeper with Image Transformers

論文リンク

実装リンク

どんなもの?

  • ViTにLayerScaleclass-attention layersを導入することで、層数の多いViTの性能を大幅に向上させることができた。
  • LayerScale
    • 学習可能な対角行列 (対角成分は0に近い値で初期化) を各residual blockの出力に追加する。
  • class-attention layers
    • ViTのようにCLSトークンをネットワークの入力に追加するのではなく、途中のTransformer層から追加することで、パッチ間のself-attentionを行うのに専念するTransformer層と、各パッチの情報をCLSトークンベクトルに集約することに専念するclass-attention層とに明確に分ける。
    • これによって、class embeddingを処理しながらattention機構を獲得するという矛盾した目的を回避することができる。
  • Imagenetのtop-1 accuracyで86.5%。現在のSOTAに匹敵する性能をより少ないFLOPSとパラメータ数で達成した。
  • さらにImagenet-RealとImagenet-V2でSOTAを達成した。

f:id:uiiurz1:20210418172944p:plain

f:id:uiiurz1:20210418172958p:plain