Sleep like a pillow

Deep Learning関係の話。

Vision Transformer

TransFG: A Transformer Architecture for Fine-grained Recognition

論文リンク https://arxiv.org/abs/2103.07976 実装リンク https://github.com/TACJu/TransFG どんなもの? Fine-grained Visual Classification (FGVC, 詳細画像分類: ある特定の対象領域における高粒度の多クラス画像分類。例えば動植物の種類識別など) タ…

Training data-efficient image transformers & distillation through attention (DeiT)

どんなもの? Vision Transformer(ViT)は画像分類タスクでSOTAを達成しているが、大規模な学習データ(JFT-300M, 約3億枚)と計算コスト(680~2,500 TPUv3-days)を必要とする。 DeiTはトークンベースの蒸留と学習方法の工夫によって、ViTよりも精度とスループッ…

DeepViT: Towards Deeper Vision Transformer

論文リンク https://arxiv.org/abs/2103.11886 どんなもの? Vision Transformer (ViT) は、層数を深くした際にCNNよりも性能がサチりやすい。 ViTは層が深くなるにつれてattention mapが似てくる傾向があり、ある層を過ぎるとほとんど同一になってしまう。…

Transformer in Transformer

論文リンク https://arxiv.org/abs/2103.00112 リポジトリリンク https://github.com/huawei-noah/noah-research/tree/master/TNT どんなもの? ViTは画像をパッチのシーケンスとして扱うが、各パッチ内の本質的な構造情報(局所的な特徴)を使えていない。 本…