Sleep like a pillow

Deep Learning関係の話。

論文読み TOOD: Task-aligned One-stage Object Detection

論文リンク arxiv.org 実装リンク github.com どんなもの? CVPR 2021。 物体検出では、分類と位置推定の2つのサブタスクを学習するが、2つのタスクに最適なアンカーが空間的にずれていることがある。 例えば、下図の上段のようにATSSでは、ダイニングテーブ…

論文読み Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive (ATSS: Adaptive Training Sample Selection)

論文リンク arxiv.org 実装リンク github.com どんなもの? CVPR 2020。 物体検出におけるアンカーベースとアンカーフリーの本質的な違いは、学習サンプルのpositive/negativeを選択方法の違いにあることを示した。 アンカーベースのRetinaNetとアンカーフリ…

論文読み FCOS: Fully Convolutional One-Stage Object Detection

論文リンク arxiv.org 実装リンク tinyurl.com どんなもの? ICCV 2019。 アンカーフリーな物体検出手法のFCOSを提案。 MS COCOにおいて、従来のCenterNetなどのアンカーフリー手法や、RetinaNetなどのアンカーベース手法をはるかに凌駕するAP 44.7%を達成。…

Going deeper with Image Transformers

論文リンク https://arxiv.org/abs/2103.17239 実装リンク https://github.com/facebookresearch/deit どんなもの? ViTにLayerScaleとclass-attention layersを導入することで、層数の多いViTの性能を大幅に向上させることができた。 LayerScale 学習可能な…

TransFG: A Transformer Architecture for Fine-grained Recognition

論文リンク https://arxiv.org/abs/2103.07976 実装リンク https://github.com/TACJu/TransFG どんなもの? Fine-grained Visual Classification (FGVC, 詳細画像分類: ある特定の対象領域における高粒度の多クラス画像分類。例えば動植物の種類識別など) タ…

Training data-efficient image transformers & distillation through attention (DeiT)

どんなもの? Vision Transformer(ViT)は画像分類タスクでSOTAを達成しているが、大規模な学習データ(JFT-300M, 約3億枚)と計算コスト(680~2,500 TPUv3-days)を必要とする。 DeiTはトークンベースの蒸留と学習方法の工夫によって、ViTよりも精度とスループッ…

DeepViT: Towards Deeper Vision Transformer

論文リンク https://arxiv.org/abs/2103.11886 どんなもの? Vision Transformer (ViT) は、層数を深くした際にCNNよりも性能がサチりやすい。 ViTは層が深くなるにつれてattention mapが似てくる傾向があり、ある層を過ぎるとほとんど同一になってしまう。…

Transformer in Transformer

論文リンク https://arxiv.org/abs/2103.00112 リポジトリリンク https://github.com/huawei-noah/noah-research/tree/master/TNT どんなもの? ViTは画像をパッチのシーケンスとして扱うが、各パッチ内の本質的な構造情報(局所的な特徴)を使えていない。 本…

The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation (UDP)

論文リンク https://arxiv.org/abs/1911.07524v1 リポジトリリンク https://github.com/HuangJunJie2017/UDP-Pose どんなもの? Top-down型のポーズ推定手法のデータ処理について初めて体系的な研究を行った。SOTA手法のデータ変換方法やencoding-decoding方…

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

論文リンク https://arxiv.org/abs/1908.10357v3 リポジトリリンク https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation 解説リンク https://blog.seishin55.com/entry/2020/06/27/190455 どんなもの? HRNetベースのBottom-up型のポーズ推定手法で…

Distribution-Aware Coordinate Representation for Human Pose Estimation (DARK)

論文リンク https://arxiv.org/abs/1910.06278 リポジトリリンク https://github.com/ilovepose/DarkPose 解説リンク https://qiita.com/KYoshiyama/items/c850117248079deed86f どんなもの? ポーズ推定手法の、学習時にGTのキーポイント座標からヒートマッ…

TResNet: High Performance GPU-Dedicated Architecture

arxiv.org github.com どんなもの? 近年のDeep Learningのモデルは、ResNet50と比較して低いFLOPsで高い精度を出しているが、GPUによる学習・推論速度はResNet50と同等以下なものが多いことを指摘。本論文では、GPUに最適なネットワーク構造と実装の工夫に…

Fixing the train-test resolution discrepancy

arxiv.org どんなもの? 画像分類タスク(特にImageNet)では、学習時のData AugmentationにRandomResizedCrop、テスト時の前処理にResizeとCenterCropが良く使われるが、この方法ではテスト時の入力画像のスケールの分布が学習時よりも小さくなってしまうこと…

Consistency-based Semi-supervised Learning for Object Detection

http://papers.nips.cc/paper/9259-consistency-based-semi-supervised-learning-for-object-detection.pdf どんなもの? ラベル付きデータとラベル無しデータを用いた半教師あり学習による物体検出手法。 通常の物体検出の分類と位置推定の学習に加えて、オ…

Dense RepPoints: Representing Visual Objects with Dense Point Sets

arxiv.org どんなもの? 新しい物体表現としてDense RepPointsを提案。物体の外観と形状を柔軟かつ詳細にモデリングする。 バウンディングボックスによるlocalizationと特徴抽出は粗めに行われるのに対して、Dense RepPointsでは物体の意味的かつ幾何学的に…

RepPoints: Point Set Representation for Object Detection

arxiv.org github.com どんなもの? 近年の物体検出器はバウンディングボックス(アンカーなど)にかなり依存している。 バウンディングボックスは便利だが、得られる物体の位置情報は粗く、それに応じて物体特徴の抽出も粗くなってしまう。 本論文では、より…

Kaggle Peking University/Baidu - Autonomous Driving まとめ

KaggleのPeking University/Baidu - Autonomous Drivingで5位になり、2個目のゴールドメダルを獲得しました。 以下、解法とコードです。 www.kaggle.com github.com

Kaggle APTOS 2019 Blindness Detection まとめ

はじめに 2019年6月の終わりごろから先日まで、KaggleのAPTOS 2019 Blindness Detectionに参加していました。 最終的な順位は11位でゴールドメダルを獲得するとともに、Kaggle Masterになりました。 以下、取り組みなどのまとめです。 www.kaggle.com github…

MixConv: Mixed Depthwise Convolutional Kernels

arxiv.org どんなもの? Depthwise Convolutionは近年の軽量なCNNでよく使われているが、カーネルサイズについては深く議論されていない。 本論文では、異なるカーネルサイズ(3x3以外も)を用いることによる影響を体系的に調査し、複数のカーネルサイズを組み…

論文読み EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse

どんなもの? パラメータ数が0.1M以下の非常に軽量なmulti-scale face detectorのEXTDを提案。精度も大規模なdetectorに匹敵。 multi-scale detectorはbackbone network中のマルチスケールの特徴マップを必要とするが、EXTDでは異なるスケール間でパラメータ…

論文読み EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

著者による実装 github.com どんなもの? CNNモデルをスケーリングするにはdepth, width, resolution(入力画像サイズ)の3つをチューニングする必要があるが、単純にどれか一つを大きくしても計算コストが増えるだけで精度はサチってしまう(ResNet-1000がRes…

論文読み Objects as Points (CenterNet)

arxiv.org 著者による実装 github.com 3D detectionとポーズ推定についても追々まとめます。 どんなもの? 従来の物体検出手法では、潜在的な物体位置を網羅的に列挙しそれぞれを分類することで検出を行うが、無駄が多く非効率でNMSなどの後処理を必要とする…

論文読み Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

arxiv.org どんなもの? Intersection over Union (IoU)は物体検出タスクにおいて、もっともよく使われる評価指標。 bounding box推定の学習によく用いられるregression lossの最適化と、IoUの最大化の間にはギャップがある。 そのため、IoUをlossとして使う…

論文読み SSD: Single Shot Multi Box Detector

とても有名な物体検出アルゴリズムなので読んでみました。 arxiv.org 2 The Single Shot Detector (SSD) 2.1 Model SSDでは固定数のbounding boxとclass scoreを推定し、最後にNMSをかける。 SSDの最初の方の層には、画像分類タスクにおいて高い性能を持つネ…

論文読み&Keras実装 ArcFace: Additive Angular Margin Loss for Deep Face Recognition

metric learningやfeature learningと呼ばれる学習手法は、クラス内のサンプル間の距離を近く、クラス間のサンプル間の距離を遠くするような特徴量を学習によって獲得するものです。 代表的なmetric learning手法のSiamese NetworkやTriplet lossはもう古く…

論文読み M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

M2Det 今年発表されたone-stage detectorのSOTAで、構造がとてもエレガントです。 arxiv.org 著者によるPyTorch実装 github.com M2Detとは? 既存のone-stage detectorで用いられているfeature pyramidは、分類タスク用のモデルの特徴マップから構成されてい…

論文読み OCNet: Object Context Network for Scene Parsing

OCNet: Object Context Network for Scene Parsing PSPNetのPyramid PoolingやDeepLabのASPといったsegemntationで強いモジュールと、Non-local Neural Networksを組み合わせたモジュールを提案した論文です。 arxiv.org 著者によるPyTorch実装: github.com …

論文読み Non-local Neural Networks

局所的な情報しか扱うことができないCNNやRNNに、大域的な情報を付与することが可能なnon-local blockというモジュールを提案した論文です。traditionalなノイズ除去手法のNon-local Mean Filterを、ニューラルネットワークで表現したような手法です。 Non-l…

論文読み Adam Induces Implicit Weight Sparsity in Rectifier Neural Networks

活性化関数にReLU、optimizerにAdamを使い、lossにL2正則化項を加えてDNNを学習させた場合に重みのスパース化(多くの重みがほぼ0になる)が起こりやすいという現象についての論文です。これを利用して、重みが0になったノードを削除してモデルのサイズを小さ…

論文読み Deep Learning for Generic Object Detection: A Survey

Deep Learningを用いた物体検出手法についてまとめたサーベイ論文です。 Deep Learning for Generic Object Detection: A Survey 3 Frameworks 物体検出手法は大きく以下の2つに分類することができる。 two stage detection framework: 最初に領域候補の推定…