2021-04-01から1ヶ月間の記事一覧
論文リンク https://arxiv.org/abs/2103.17239 実装リンク https://github.com/facebookresearch/deit どんなもの? ViTにLayerScaleとclass-attention layersを導入することで、層数の多いViTの性能を大幅に向上させることができた。 LayerScale 学習可能な…
論文リンク https://arxiv.org/abs/2103.07976 実装リンク https://github.com/TACJu/TransFG どんなもの? Fine-grained Visual Classification (FGVC, 詳細画像分類: ある特定の対象領域における高粒度の多クラス画像分類。例えば動植物の種類識別など) タ…
どんなもの? Vision Transformer(ViT)は画像分類タスクでSOTAを達成しているが、大規模な学習データ(JFT-300M, 約3億枚)と計算コスト(680~2,500 TPUv3-days)を必要とする。 DeiTはトークンベースの蒸留と学習方法の工夫によって、ViTよりも精度とスループッ…
論文リンク https://arxiv.org/abs/2103.11886 どんなもの? Vision Transformer (ViT) は、層数を深くした際にCNNよりも性能がサチりやすい。 ViTは層が深くなるにつれてattention mapが似てくる傾向があり、ある層を過ぎるとほとんど同一になってしまう。…