論文読み
論文リンク arxiv.org 実装リンク github.com どんなもの? CVPR 2021。 物体検出では、分類と位置推定の2つのサブタスクを学習するが、2つのタスクに最適なアンカーが空間的にずれていることがある。 例えば、下図の上段のようにATSSでは、ダイニングテーブ…
論文リンク arxiv.org 実装リンク github.com どんなもの? CVPR 2020。 物体検出におけるアンカーベースとアンカーフリーの本質的な違いは、学習サンプルのpositive/negativeを選択方法の違いにあることを示した。 アンカーベースのRetinaNetとアンカーフリ…
論文リンク arxiv.org 実装リンク tinyurl.com どんなもの? ICCV 2019。 アンカーフリーな物体検出手法のFCOSを提案。 MS COCOにおいて、従来のCenterNetなどのアンカーフリー手法や、RetinaNetなどのアンカーベース手法をはるかに凌駕するAP 44.7%を達成。…
論文リンク https://arxiv.org/abs/2103.07976 実装リンク https://github.com/TACJu/TransFG どんなもの? Fine-grained Visual Classification (FGVC, 詳細画像分類: ある特定の対象領域における高粒度の多クラス画像分類。例えば動植物の種類識別など) タ…
どんなもの? Vision Transformer(ViT)は画像分類タスクでSOTAを達成しているが、大規模な学習データ(JFT-300M, 約3億枚)と計算コスト(680~2,500 TPUv3-days)を必要とする。 DeiTはトークンベースの蒸留と学習方法の工夫によって、ViTよりも精度とスループッ…
論文リンク https://arxiv.org/abs/2103.11886 どんなもの? Vision Transformer (ViT) は、層数を深くした際にCNNよりも性能がサチりやすい。 ViTは層が深くなるにつれてattention mapが似てくる傾向があり、ある層を過ぎるとほとんど同一になってしまう。…
論文リンク https://arxiv.org/abs/2103.00112 リポジトリリンク https://github.com/huawei-noah/noah-research/tree/master/TNT どんなもの? ViTは画像をパッチのシーケンスとして扱うが、各パッチ内の本質的な構造情報(局所的な特徴)を使えていない。 本…
論文リンク https://arxiv.org/abs/1911.07524v1 リポジトリリンク https://github.com/HuangJunJie2017/UDP-Pose どんなもの? Top-down型のポーズ推定手法のデータ処理について初めて体系的な研究を行った。SOTA手法のデータ変換方法やencoding-decoding方…
論文リンク https://arxiv.org/abs/1908.10357v3 リポジトリリンク https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation 解説リンク https://blog.seishin55.com/entry/2020/06/27/190455 どんなもの? HRNetベースのBottom-up型のポーズ推定手法で…
論文リンク https://arxiv.org/abs/1910.06278 リポジトリリンク https://github.com/ilovepose/DarkPose 解説リンク https://qiita.com/KYoshiyama/items/c850117248079deed86f どんなもの? ポーズ推定手法の、学習時にGTのキーポイント座標からヒートマッ…
arxiv.org github.com どんなもの? 近年のDeep Learningのモデルは、ResNet50と比較して低いFLOPsで高い精度を出しているが、GPUによる学習・推論速度はResNet50と同等以下なものが多いことを指摘。本論文では、GPUに最適なネットワーク構造と実装の工夫に…
arxiv.org どんなもの? 画像分類タスク(特にImageNet)では、学習時のData AugmentationにRandomResizedCrop、テスト時の前処理にResizeとCenterCropが良く使われるが、この方法ではテスト時の入力画像のスケールの分布が学習時よりも小さくなってしまうこと…
http://papers.nips.cc/paper/9259-consistency-based-semi-supervised-learning-for-object-detection.pdf どんなもの? ラベル付きデータとラベル無しデータを用いた半教師あり学習による物体検出手法。 通常の物体検出の分類と位置推定の学習に加えて、オ…
arxiv.org どんなもの? 新しい物体表現としてDense RepPointsを提案。物体の外観と形状を柔軟かつ詳細にモデリングする。 バウンディングボックスによるlocalizationと特徴抽出は粗めに行われるのに対して、Dense RepPointsでは物体の意味的かつ幾何学的に…
arxiv.org github.com どんなもの? 近年の物体検出器はバウンディングボックス(アンカーなど)にかなり依存している。 バウンディングボックスは便利だが、得られる物体の位置情報は粗く、それに応じて物体特徴の抽出も粗くなってしまう。 本論文では、より…
arxiv.org どんなもの? Depthwise Convolutionは近年の軽量なCNNでよく使われているが、カーネルサイズについては深く議論されていない。 本論文では、異なるカーネルサイズ(3x3以外も)を用いることによる影響を体系的に調査し、複数のカーネルサイズを組み…
どんなもの? パラメータ数が0.1M以下の非常に軽量なmulti-scale face detectorのEXTDを提案。精度も大規模なdetectorに匹敵。 multi-scale detectorはbackbone network中のマルチスケールの特徴マップを必要とするが、EXTDでは異なるスケール間でパラメータ…
著者による実装 github.com どんなもの? CNNモデルをスケーリングするにはdepth, width, resolution(入力画像サイズ)の3つをチューニングする必要があるが、単純にどれか一つを大きくしても計算コストが増えるだけで精度はサチってしまう(ResNet-1000がRes…
arxiv.org 著者による実装 github.com 3D detectionとポーズ推定についても追々まとめます。 どんなもの? 従来の物体検出手法では、潜在的な物体位置を網羅的に列挙しそれぞれを分類することで検出を行うが、無駄が多く非効率でNMSなどの後処理を必要とする…
arxiv.org どんなもの? Intersection over Union (IoU)は物体検出タスクにおいて、もっともよく使われる評価指標。 bounding box推定の学習によく用いられるregression lossの最適化と、IoUの最大化の間にはギャップがある。 そのため、IoUをlossとして使う…
とても有名な物体検出アルゴリズムなので読んでみました。 arxiv.org 2 The Single Shot Detector (SSD) 2.1 Model SSDでは固定数のbounding boxとclass scoreを推定し、最後にNMSをかける。 SSDの最初の方の層には、画像分類タスクにおいて高い性能を持つネ…
metric learningやfeature learningと呼ばれる学習手法は、クラス内のサンプル間の距離を近く、クラス間のサンプル間の距離を遠くするような特徴量を学習によって獲得するものです。 代表的なmetric learning手法のSiamese NetworkやTriplet lossはもう古く…
M2Det 今年発表されたone-stage detectorのSOTAで、構造がとてもエレガントです。 arxiv.org 著者によるPyTorch実装 github.com M2Detとは? 既存のone-stage detectorで用いられているfeature pyramidは、分類タスク用のモデルの特徴マップから構成されてい…
OCNet: Object Context Network for Scene Parsing PSPNetのPyramid PoolingやDeepLabのASPといったsegemntationで強いモジュールと、Non-local Neural Networksを組み合わせたモジュールを提案した論文です。 arxiv.org 著者によるPyTorch実装: github.com …
局所的な情報しか扱うことができないCNNやRNNに、大域的な情報を付与することが可能なnon-local blockというモジュールを提案した論文です。traditionalなノイズ除去手法のNon-local Mean Filterを、ニューラルネットワークで表現したような手法です。 Non-l…
活性化関数にReLU、optimizerにAdamを使い、lossにL2正則化項を加えてDNNを学習させた場合に重みのスパース化(多くの重みがほぼ0になる)が起こりやすいという現象についての論文です。これを利用して、重みが0になったノードを削除してモデルのサイズを小さ…
Deep Learningを用いた物体検出手法についてまとめたサーベイ論文です。 Deep Learning for Generic Object Detection: A Survey 3 Frameworks 物体検出手法は大きく以下の2つに分類することができる。 two stage detection framework: 最初に領域候補の推定…
single-stageの物体検出手法の中でのSOTAを達成したCornerNetの論文です。 bounding boxの左上の座標(top-left corner)と右下の座標(bottom-right corner)を検出することで物体を検出します。 CornerNet: Detecting Objects as Paired Keypoints 3. CornerNe…
2018/11/21にarXivに投稿された論文「Rethinking ImageNet Pre-training」を読みました。 著者: Kaiming He (Facebook AI Research), Ross Girshick (Facebook AI Research), Piotr Dollar (Facebook AI Research) Abstract スクラッチから学習したMask R-C…
画像の領域検出(image segmentation)ではおなじみのU-Netの改良版として、 UNet++: A Nested U-Net Architecture for Medical Image Segmentationが提案されています。 構造が簡単、かつGithubに著者のKerasによる実装しかなさそうだったのでPyTorchで実装し…