Sleep like a pillow

Deep Learning関係の話。

Going deeper with Image Transformers

論文リンク

https://arxiv.org/abs/2103.17239

実装リンク

https://github.com/facebookresearch/deit

どんなもの？

ViTにLayerScaleとclass-attention layersを導入することで、層数の多いViTの性能を大幅に向上させることができた。
LayerScale
- 学習可能な対角行列 (対角成分は0に近い値で初期化) を各residual blockの出力に追加する。
class-attention layers
- ViTのようにCLSトークンをネットワークの入力に追加するのではなく、途中のTransformer層から追加することで、パッチ間のself-attentionを行うのに専念するTransformer層と、各パッチの情報をCLSトークンベクトルに集約することに専念するclass-attention層とに明確に分ける。
- これによって、class embeddingを処理しながらattention機構を獲得するという矛盾した目的を回避することができる。
Imagenetのtop-1 accuracyで86.5%。現在のSOTAに匹敵する性能をより少ないFLOPSとパラメータ数で達成した。
さらにImagenet-RealとImagenet-V2でSOTAを達成した。

f:id:uiiurz1:20210418172944p:plain

f:id:uiiurz1:20210418172958p:plain