2019-05-19

論文読み Objects as Points (CenterNet)

DeepLearning 論文読み物体検出

arxiv.org

著者による実装 github.com

3D detectionとポーズ推定についても追々まとめます。

どんなもの？

従来の物体検出手法では、潜在的な物体位置を網羅的に列挙しそれぞれを分類することで検出を行うが、無駄が多く非効率でNMSなどの後処理を必要とする。
CenterNetでは、物体をbounding boxの中心点としてモデル化することで物体を検出する。
キーポイント推定によって中心点を探索するとともに、タスクに合わせてbounding boxの大きさや3D location, orientation, ポーズなどを回帰で推定する。
精度と速度の両方でSOTA。

技術や手法のキモ

Preliminary

入力画像 (W x H)に対して、出力されるキーポイントマップは$$\hat{Y} \in [0, 1]^{\frac{W}{R} \times \frac{H}{R} \times C}$$
Rはストライドを表しており、キーポイントマップは入力画像に対して1/Rにダウンサンプリングされる。
Cはキーポイントの種類を表しており、物体検出の場合にはカテゴリ数、ポーズ推定の場合には関節数となる。
$\hat{Y} = 1$ は検出したキーポイント、 $\hat{Y} = 0$ は背景に対応する。
hourglass networkやDLAなどのencoder-decoderネットワークを用いて、キーポイントマップ $\hat{Y}$ を推定する。
ground truthのキーポイント座標 $p \in R^2$ に対して、ダウンサンプリングされたキーポイント座標は $\tilde{p} = \lfloor \frac{p}{R} \rfloor$ 。
$\tilde{p}$ とガウシアンカーネルを用いてground truthのキーポイントマップYを作成する。 $$Y \in [0, 1]^{\frac{W}{R} \times \frac{H}{R} \times C}$$
ガウシアンカーネルをかけた後のマップについて一つの座標に複数クラスが存在する場合には最大のみ採用する。
学習に用いるlossは以下の $L_k$ 。 $$ L_k = -\frac{1}{N} \sum_{xyc} \left\{ \begin{array}{} (1 - \hat{Y}_{xyc})^{\alpha} \log \hat{Y}_{xyc} & {\rm if} \hspace{1pt} Y_{xyc} = 1 \\ (1 - Y_{xyc})^{\beta} \hat{Y}_{xyc}^{\alpha} \log (1 - \hat{Y}_{xyc}) & {\rm otherwise} \end{array} \right. $$
ストライドによって発生する離散的な誤差を修正するために追加でオフセット $\hat{O} \in R^{\frac{W}{R} \times \frac{H}{R} \times 2}$ を推定する。
オフセットは以下のL1 lossで学習。 $$ L_{off} = \frac{1}{N} \sum_p \left|\hat{O}_{\tilde{p}} - \left(\frac{p}{R} - \tilde{p}\right)\right| $$

Objects as Points

オブジェクト $k$ のbounding boxを $(x_1^{(k)}, y_1^{(k)}, x_2^{(k)}, y_2^{(k)})$ 、カテゴリを $c_k$ とする。
中心点 $p_k$ は $(\frac{x_1^{(k)} + x_2^{(k)}}{2}, \frac{y_1^{(k)} + y_2^{(k)}}{2})$ 。
キーポイントマップ $\hat{Y}$ によって中心点を推定するのに加えて、bounding boxのサイズ $s_k = (x_2^{(k)} - x_1^{(k)}, y_2^{(k)} - y_1^{(k)})$ を推定する。
つまり、キーポイントマップ $\hat{Y}$ と、bounding boxの大きさを示すマップ $\hat{S} \in R^{\frac{W}{R} \times \frac{H}{R} \times 2}$ を推定する。
学習には以下のL1 lossを用いる。 $$L_{size} = \frac{1}{N} \sum_{k=1}^N \left| \hat{S}_{p_k} - s_k \right|$$
他の物体検出手法でやるような座標のスケーリングは行わず、代わりにそれぞれのlossの係数でスケールを調整する。
全体のlossは以下の通り。 $$L_{det} = L_k + \lambda_{size} L_{size} + \lambda_{off} L_{off}$$
キーポイント $\hat{Y}$ 、オフセット $\hat{O}$ 、bounding boxのサイズ $\hat{S}$ の3つを推定するため、ネットワークが出力するマップのチャンネル数は $C+4$ となる。

From points to bounding boxes

推論時にはキーポイントマップからピークを各カテゴリ独立に抽出する。
周囲8近傍点以上の値を持つ点のうち上位100点をピークとする。
ピークの値をそのまま確信度として用いるとともに、ピークの座標 $(\hat{x }_i, \hat{y}_i)$ とオフセット $(\delta \hat{x}_i, \delta \hat{y}_i)$ 、bounding boxのサイズ $(\hat{w}_i, \hat{h}_i)$ から以下のようにしてbounding boxを求める。 $$(\hat{x}_i + \delta \hat{x}_i - \frac{\hat{w}_i}{2}, \hat{y}_i + \delta \hat{y}_i - \frac{\hat{h}_i}{2}, \hat{x}_i + \delta \hat{x}_i + \frac{\hat{w}_i}{2}, \hat{y}_i + \delta \hat{y}_i + \frac{\hat{h}_i}{2})$$
ピークを抽出する処理がNMSのような作用を持つため、NMSのような後処理は必要ない。
さらにピーク抽出は3x3のmax poolingによって実装できるため、NMSよりも計算コストが低そう。

有効性の検証

物体検出についてはCOCOデータセットを用いてSOTAと比較。
精度・速度の両面で良好な結果。

議論や改善点

後処理として試しにNMSを適用してみた結果、精度は変わらないか若干上がる程度だったので使用しなかった。
物体検出のregression lossといえばsmooth L1 lossという感じだが、通常のL1 lossの方が良かったらしい。
アルゴリズムがシンプルで速くて精度が高い。
CenterNetのフレームワークはbounding boxだけでなく、推定できるオブジェクトの特性の幅が広いため応用性が高い。

2019-04-30

論文読み Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

DeepLearning 論文読み物体検出

arxiv.org

どんなもの？

Intersection over Union (IoU)は物体検出タスクにおいて、もっともよく使われる評価指標。
bounding box推定の学習によく用いられるregression lossの最適化と、IoUの最大化の間にはギャップがある。
そのため、IoUをlossとして使う先行研究もあるが、IoUは二つの領域が全く重なっていない場合には領域の位置関係に関わらず全て0となるため、IoU lossは多くの鞍点(勾配が0の点)を持ち、学習が進まない場合がある。
この論文では、IoU lossの問題点を解決した Generalized IoU (GIoU) loss を提案。

技術や手法のキモ

Generalized Intersection over Union

IoUは二つの領域の積(intersection)Aと和(union)Bから以下のように計算される。

$\displaystyle IoU = \frac{|A \cap B|}{|A \cup B|}$

IoUの持つ大きな問題点は、二つの領域が全くoverlapしていない場合は全て値が0となるため、二つの領域が近くにあるのか遠くにあるのかというのを反映させることができないという点。
GIoUは二つの領域の積(intersection)Aと和(union)Bに加えて、二つの領域を囲む最小かつ同じ形状の領域Cを用いて下式のように計算される。

$\displaystyle GIoU = \frac{|A \cap B|}{|A \cup B|} - \frac{|C \setminus (A \cup B)|}{|C|}$

GIoU lossは

$\displaystyle L_{GIoU} = 1 - GIoU$

GIoU as Loss for Bounding Box Regression

任意の形状についてのGIoUを解析的に求めるのは難しいが、Bounding Boxについては以下のように簡単に求めることができる。

有効性の検証

YOLOv3のMSE loss, Faster R-CNNとMask R-CNNのl1-smooth lossをGIoU lossに置き換えて学習を行う。
GIoU lossを用いることでAPとAP75が向上することを確認。
定性評価においても、GIoUが最も優れている。

議論や改善点

直方体のGIoUの解析的な導出のフィージビリティについて調査する予定。
- GIoUの導出が可能であれば、3Dの物体検出についてもGIoUを適用できる。

2019-04-18

論文読み SSD: Single Shot Multi Box Detector

DeepLearning 論文読み

とても有名な物体検出アルゴリズムなので読んでみました。

arxiv.org

2 The Single Shot Detector (SSD)

2.1 Model

SSDでは固定数のbounding boxとclass scoreを推定し、最後にNMSをかける。
SSDの最初の方の層には、画像分類タスクにおいて高い性能を持つネットワークの分類層を除いたものを用いる(base networkと呼ぶ)。

Multi-scale feature maps for detection

base networkの最後にいくつかの畳み込み層を追加する。
畳み込み層によって特徴マップのサイズを段階的に落としていくことで、マルチスケールでの検出を可能にする。
異なるスケールの特徴マップそれぞれでbounding boxとobject classを推定する。

Convolutional predictions for detection

それぞれの特徴層に、 $3 \times 3 \times p$ の畳み込みをかけることでclass scoreとdefault box(後述)のoffsetを推定する。
bounding boxのoffsetは、各特徴マップに対応するdefault boxを基準にして出力される。

Default box and aspect ratios

各特徴マップのそれぞれのcellについて、default boxを対応させる。
default boxは畳み込みの要領で特徴マップ全体に敷き詰められるため、各cellに対応するboxの位置は固定。
各特徴マップのcellで、default boxのoffsetを推定するとともに、bounding box内に各クラスの物体が存在するかどうかのscoreを推定する。
具体的には、ある位置での $k$ 個のboxそれぞれについて、クラス数 $c$ に対応した $c$ 個のclass scoreと、default boxについての4つのoffsetを推定する。結果として、各位置について $(c+4)k$ 個のフィルタが適用されるため、 $m \times n$ の特徴マップから $(c+4)kmn$ 個の出力が生成される。

2.2 Training

SSDでは、ground truth boxの情報をdetectorの対応する出力に割り当てる必要がある。
一回割り当てが決まれば、lossの計算や誤差逆伝播をend-to-endで行うことができる。

Matching strategy

学習の際に、どのdefault boxがground truthに対応しているのか決定するとともに、それに応じてネットワークを学習させる必要がある。
MultiBoxでは、各ground truth boxについてjaccard overlapが最大となるdefault boxを対応するものとしている。
SSDでは、あるdefault boxとground truth boxについて、jaccard overlapがしきい値(0.5)より大きい場合に一致していると見做す。
これによって、overlapを最大化するdefault boxをたった一つ選択するという問題から、overlapしているdefault boxのscoreを高くするという問題へと単純化することができる。

Training objective

Choosing scales and aspect ratios for default boxes

複数の異なるスケールの特徴マップを検出に用いる。実用において、特徴マップの追加による計算コストの増加は僅か。
異なるスケールの特徴マップは、異なるサイズの受容野を持つ。
SSDのフレームワークでは、default boxを各層の実際の受容野に対応させる必要はない。
特定の特徴マップが特定のスケールに対応するように学習を行うため、default boxのスケールとアスペクト比を設計する。
各特徴マップにおけるdefault boxのスケールは以下のように計算される。
最小と最大のスケールが決まれば、すべての特徴マップのスケールは等間隔になるように決定される。

Hard negative mining

ほとんどのdefault boxは対応するground truthのないnegativeなものであるため、positive, negativeのサンプル数が不均衡になってしまう。
そこで、全てのnegative exampleを使う代わりに、negative exampleを確信度が高い順にソートして、上位のものからnegative:positiveの比率が3:1になるように選択する。
これによって学習が速く進むとともに安定する。

Data augmentation

以下からランダムに一つ選択した方法で学習用画像からパッチ画像をサンプリングする。
- 画像をそのままパッチ画像として用いる。
- 物体とのjaccard overlapの最小が0.1, 0.3, 0.5, 0.7, 0.9(ランダムに選択される)であるパッチ画像をサンプリングする。
- ランダムにパッチ画像をサンプリングする。
ground truthの中心がサンプリングされたパッチ画像内にある場合は、パッチ画像に含まれるground truthと見做す(おそらく、見切れてるようなbounding boxを含めるかどうかの基準)。
各パッチ画像のスケールはオリジナルの画像に対して[0.1, 1]、アスペクト比は[1/2, 2]。
パッチ画像に対してrandom horizontal flipといくつかのフォトメトリックな歪みを加える。

2019-04-15

論文読み＆Keras実装 ArcFace: Additive Angular Margin Loss for Deep Face Recognition

DeepLearning 実装論文読み

metric learningやfeature learningと呼ばれる学習手法は、クラス内のサンプル間の距離を近く、クラス間のサンプル間の距離を遠くするような特徴量を学習によって獲得するものです。代表的なmetric learning手法のSiamese NetworkやTriplet lossはもう古くて、ArcFaceの方が色々と優れているらしいので読んでみました。

arxiv.org

Pytorch実装 github.com

Keras実装 github.com

Abstract

feature learningで主に重要なのは、特徴量の持つ弁別性を向上させるのに適したloss関数を設計すること。
Centre lossは、各サンプルの特徴量とクラスを代表する特徴量との距離に制約を設けることで、クラス内分散を小さくする。
SphereFaceでは、全結合層の重み行列を用いて角度空間における各クラスを代表する特徴量を表現し、その重み行列の列ベクトルと各サンプルの特徴ベクトルのなす角に制約を設ける。
最近人気なのは一般的なloss関数にマージンを組み込む方法。
この論文では Additive Angular Margin Loss (ArcFace)を提案。
ArcFaceは超球面における測地線距離(直線の概念を曲がった空間において一般化したもの。2つの離れた点を結ぶ（局所的に）最短な線)と対応しているため、幾何学的に解釈できるらしい。
比較実験めちゃくちゃやった(最近のSOTAな手法すべて+10種類のデータセット)。
ArcFaceはSOTAな手法であるとともに、実装が簡単で計算コストの増加も無視できるほど少ない。

2. Proposed Approach

2.1. ArcFace

普通のsoftmax loss $L_1$ は以下の通り。

$\displaystyle L_1 = -\frac{1}{N} \sum_{i=1}^N \log \frac{e^{W_{y_i}^T x_i + b_{y_i}}}{\sum_{j=1}^n e^{W_{j}^T x_i + b_j}}$

バイアスを0に固定して、Wの列ベクトルとxをそれぞれL2ノルムで正規化すると、二つのベクトルのなす角のコサイン(コサイン類似度)を表すことができる( $L_2$ )。sはリスケールのパラメータで、マージンによって値が小さくなりすぎるのを防ぐ。

$\displaystyle L_2 = -\frac{1}{N} \sum_{i=1}^N \log \frac{e^{s \cos\theta_{y_i }}}{e^{s \cos\theta_{y_i}}\sum_{j=1, j \neq y_i}^n e^{s \cos\theta_{j}}}$

最後にマージンmを、正解ラベルについてのlogitから求められる角度 $\theta_{y_i }$ に加える( $L_3$ )。実装上はarccosineか三角関数の公式を用いた計算が必要。

$\displaystyle L_3 = -\frac{1}{N} \sum_{i=1}^N \log \frac{e^{s \cos(\theta_{y_i } + m)}}{e^{s \cos(\theta_{y_i} + m)}\sum_{j=1, j \neq y_i}^n e^{s \cos\theta_{j}}}$

全体の流れは以下の図の通り。

f:id:uiiurz1:20190415215411p:plain

以下の図は8クラスの顔画像データ(それぞれ約1500枚ずつ)について、二次元の特徴表現をSoftmaxとArcFaceで学習し、結果を比較をしたもの。中心から伸びてる線分は、クラスを代表する特徴ベクトルを表しており、円周上に分布する点は各サンプルの特徴ベクトルを表している。
ArcFaceの方がクラス内分散が小さく、ばらつきが少ないのがわかる。

2.2. Comparison with SphereFace and CosFace

Numerical Similarity

SphereFaceとCosFaceはArcFaceと同様にコサイン類似度を用いたlossであるが、マージンの導入の仕方が異なる。
以下の式がわかりやすくて、マージンとしてm1を用いる場合はSphereFace、m2を用いる場合はArcFace、m3を用いる場合はCosFaceになる。

$\displaystyle L_4 = -\frac{1}{N} \sum_{i=1}^N \log \frac{e^{s \cos(m_1 \theta_{y_i } + m_2) - m_3}}{e^{s \cos(m_1 \theta_{y_i} + m_2) - m_3}\sum_{j=1, j \neq y_i}^n e^{s \cos\theta_{j}}}$

数値解析の観点から見れば、マージンを角度空間で加えようがコサイン空間で加えようがどっちでも問題ない。

Geometric Defference

数値解析的にはSphereFace, CosFace, ArcFaceはあまり違いが無いけど、幾何学的な観点から見ると、ArcFaceのマージンは測地線距離と正確に対応している。
以下の図はニクラス分類における決定境界とマージンを示したもの。点線が決定境界で、灰色の領域はマージン。

f:id:uiiurz1:20190415215149p:plain

おそらく、クラスを代表する特徴ベクトル\thta_1と\theta_2の線形結合でサンプルの特徴ベクトルを表した際に、どちらのクラスに属するか示してる。
ArcFaceのマージンはSoftmaxの決定境界に対して一定かつ線形になっているのに対して、SphereFaceとCosFaceはそうではない。
ちょっとした違いかもしれないが学習には大きく影響するらしくて、SphereFaceでは勾配の発散を防ぐために、学習開始時にマージンのペナルティを弱めている。

2.3 Compatison with Other Losses

その他のLossとの比較は以下の図がとても分かりやすい。

f:id:uiiurz1:20190415215330p:plain

Margin-LossとTriplet-Lossの違いは、 Margin-Lossではpositive sampleとnegative sampleにそれぞれクラスを代表する特徴ベクトルを用いる点。

2019-04-07

論文読み M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

DeepLearning 論文読み

M2Det

今年発表されたone-stage detectorのSOTAで、構造がとてもエレガントです。

arxiv.org

著者によるPyTorch実装 github.com

M2Detとは？

既存のone-stage detectorで用いられているfeature pyramidは、分類タスク用のモデルの特徴マップから構成されているため、物体検出に最適ではない可能性がある。さらに、それぞれの特徴マップは単一のレイヤからしか作られていない。
M2Detでは、backbone network中の異なるスケールの2つの特徴マップをconcatしたものをBase featureとして用いる。
Base featureに対してU-Net likeなsubnetworkを複数回かけ、それぞれのsubnetworkの特徴マップをfeature pyramidとして用いることで、様々なスケールかつ抽象レベルの特徴マップを持つMulti-level Feature Pyramidを生成し検出に用いる。
精度と実行速度においてSone-stage detectorのSOTAを達成。
ベースとなっているのはSSDで、SSDのFPNをMulti-level Feature Pyramidで置き換えたイメージ。

Multi-level Feature Pyramid Network (MLFPN)

FFMv1

FFMv1では、backboneの特徴マップからBase featureをつくる
backbone内の最も小さいスケールの特徴マップの中で最も深いもの(VGG16のconv5_3)と、二番目に小さいスケールの特徴マップの中で最も深いもの(VGG16のconv4_3)をとってきて、convによるチャンネル数の削減とupsampleでconv5_3のスケールをconv4_3に合わせてconcatしたものがBase feature。

TUM

TUMはU-Net likeなsubsetwork。
U-Netと異なり各ブロックのconvは一層だけ (論文中ではThinと表現されている)。stride2のconvでスケールを落としていく(論文だとスケールは6段階なのでブロック数はencoderとdecoderそれぞれ5)。
encoderとdecoderのマージはconcatではなくelement-wise sum。
Multi-level Fature Pyramidに用いるために、decode部分の各スケールごとにconv1x1をかけて特徴マップを出力する。
TUMは何回か繰り返す(論文だと8回)ことで、異なる抽象レベルの特徴マップを獲得することができる。

FFMv2

ひとつ前のTUMの最終層の特徴マップと、Base featureのチャンネル数をconvで削減したものをconcatして、次のTUMに渡す

SFAM

SFAMでは複数のTUMから得られる特徴マップを統合してMLFPを生成する。
同一スケールの特徴マップをconcatしてSqueeze & Excitation (SE)ブロックをかける。異なる抽象レベル間の相互依存性を情報としてうまく利用するためか？
MLFPの完成。

Implementation details

学習の最初の5epochは小さい学習率から初期lrまで徐々に大きくする。(Warmup, 分散学習でよく使われる)
初期lrは2*10^-3、90epochと120epochで0.1倍して150epochで学習終了。
バッチサイズは32。
入力サイズは既存手法に倣って320x320、512x512、800x800の3つ。
backboneはVGG-16とResNet-101。

所感

CornerNetよりも精度良くて高速、実装が簡単そう
各モジュールの構造と役割が分かりやすい

2019-04-07

論文読み OCNet: Object Context Network for Scene Parsing

DeepLearning 論文読み

OCNet: Object Context Network for Scene Parsing

PSPNetのPyramid PoolingやDeepLabのASPといったsegemntationで強いモジュールと、Non-local Neural Networksを組み合わせたモジュールを提案した論文です。

arxiv.org

著者によるPyTorch実装: github.com

Object Context

Object context pooling (OCP)

Non-local Neural NetworksのNon-local operatorとほぼ同じで、類似度表現には内積にガウス関数をかけるEmbedded Gaussianを用いる。
OCPによって得られる特徴マップをobject context mapと呼ぶ。
Non-local Neural Networksと同様に、object context mapに初期値0のconv1x1(著者が公開しているコードのW)をかけることで、モデルの持つもともとの振る舞いを妨げないようにする。
OCPを用いた以下の3つのモジュールを提案。
- Base object context
- Pyramid object context
- Combination with ASPP

Base object context

f:id:uiiurz1:20190407094139p:plain — Base-OC

- 入力の特徴マップにOCPをかけて入力の特徴マップとconcatする。

Pyramid object context

f:id:uiiurz1:20190407094215p:plain — Pyramid-OC

- PSPNetのPyramid PoolingとOCPを組み合わせたモジュール。 - 異なるスケールの特徴マップそれぞれにOCPをかけてconcatする。

Combination with ASPP

f:id:uiiurz1:20190407094246p:plain — ASP-OC

- DeepLavのASPとOCPを組み合わせたモジュール。 - ASPの1x1 convやdilated convのブランチにOCPのブランチを追加。

Network Architecture

ネットワーク構造は以下の図の通り。
OCNet
backbone networkにはImageNetで学習済みのResNet-101を用いる

Experiments

Cityscapes (路上画像)、ADE20K (一般物体認識)、LIP (様々なタスクを行う人物)の3つのデータセットでSOTAな性能を示した。

Visualization of object context maps

以下の図は画像中のあるピクセルについてのobject context mapsを可視化したもの。
Visualization of object context maps
赤い+マークが着目ピクセルを示している。
OCPの狙い通りに、着目ピクセルと同じcontextを持つ領域の値が高くなっていておもしろい。

所感

segmentationの後処理としてよく使われるMRF的な効果もあるのかなと感じる

2018-12-30

論文読み Non-local Neural Networks

DeepLearning 論文読み

局所的な情報しか扱うことができないCNNやRNNに、大域的な情報を付与することが可能なnon-local blockというモジュールを提案した論文です。traditionalなノイズ除去手法のNon-local Mean Filterを、ニューラルネットワークで表現したような手法です。

Non-local Neural Networks

Abstract

　CNNやRNNでは局所的な情報しか扱うことができない。CNNだとカーネルサイズを大きくするとか方法があるけど、限界があるし小さいカーネルの利点が失われる。そこで、本論文ではより大域的な情報を扱うことが可能なnon-local operatorを提案する。 non-local operatorはノイズ除去手法のNon-local Mean Filterから着想を得ており、着目点の値を特徴マップ中の全ての点の重み付き和として表現する。 non-local operatorはcomputer vision系の様々な構造のモデルに導入可能であり、導入することで動画像の分類や物体検出、領域分割において性能が向上した。

3. Non-local Neural Networks

3.1. Formulation

　Non-local Mean Filterの演算をニューラルネットワーク向けに以下のようなnon local operatorに定式化する。

$\displaystyle {\bf y}_i = \frac{1}{C({\bf x})} \sum_{\forall j} f({\bf x}_i, {\bf x}_j) g({\bf x}_j)$

$f({\bf x}_i, {\bf x}_j)$ は特徴マップ中の着目点 $i$ とある点 $j$ の類似度、 $g({\bf x}_j)$ はある点 $j$ での入力信号の表現を計算する関数を表す。 $C({\bf x})$ は正規化係数。

全結合層との違い

　non-local operatorにおいて全結合層の重みにあたる $f$ は学習パラメータではなく類似度である。また、non-local operatoのr入力サイズは任意でありCNNやRNNに簡単に導入できる。

3.2. Instantiations

　 $g({\bf x}_j)$ はカーネルサイズが1の畳み込みによるembeddingで表現する。類似度を表す $f({\bf x}_i, {\bf x}_j)$ には以下のようなものが考えられる。

Gaussian

　 ${\bf x}_i$ と ${\bf x}_j$ の内積にガウス関数をかける。

$\displaystyle f({\bf x}_i, {\bf x}_j) = e^{{\bf x}_i^T{\bf x}_j}$

ユークリッド距離ではなく内積を用いるのは、その方がDeep learningのプラットフォーム上で実装しやすいため。正規化係数は $f({\bf x}_i, {\bf x}_j)$ の総和 $C({\bf x}) = \sum_{\forall j} f({\bf x}_i, {\bf x}_j)$ 。

Embedded Gaussian

　 ${\bf x}_i$ と ${\bf x}_j$ のembeddingの内積にガウス関数をかける。

$\displaystyle f({\bf x}_i, {\bf x}_j) = e^{\theta({\bf x}_i)^T\phi({\bf x}_j)}$

\theta({\bf x}_i)と\phi({\bf x}_j)はembeddingを求める関数で $g({\bf x}_j)$ と同様に、カーネルサイズが1の畳み込みで表現する。正規化係数はGaussianと同様に $f({\bf x}_i, {\bf x}_j)$ の総和 $C({\bf x}) = \sum_{\forall j} f({\bf x}_i, {\bf x}_j)$ 。

　機械翻訳タスクにおいて用いられているself-attention moduleは、Embedded Gaussianを類似度関数に使ったnon-local operatorとして捉えることができる。 Embedded Gaussianを用いるとき、 $\frac{1}{C}({\bf x}) f({\bf x}_i, {\bf y}_i)$ は次元jに沿ってsoftmax関数をかけるのと同じとみなせるため、non-local operatorは ${\bf y} = softmax({\bf x}^T {\bf W}_{\theta}^T {\bf W}_{\phi} {\bf x})$ と表すことができる。これはself-attention moduleを表す式と同じ。non-local operatorは、シーケンスのみに対応していたself-attention moduleを画像や動画像データにも対応可能なように拡張したものといえる。

　self-attention moduleとの関係性とは反対に、softmaxは必ずしも必要ではない。

Dot product

　 ${\bf x}_i$ と ${\bf x}_j$ のembeddingの内積。Embedded Gaussianのガウス関数を除いたもの。

$\displaystyle f({\bf x}_i, {\bf x}_j) = \theta({\bf x}_i)^T\phi({\bf x}_j)$

正規化係数は ${\bf x}$ の要素数 $N$ 。 $f({\bf x}_i, {\bf x}_j)$ の総和を使わないのは、勾配計算を簡単にするため。

Concatenation

　visual reasoning(どういうタスク?)用のRelation Networksというモデルで使われている関数。

$\displaystyle f({\bf x}_i, {\bf x}_j) = {\rm ReLU}({\bf w}_f^T [\theta({\bf x}_i), \phi({\bf x}_j)])$

$[ \cdot , \cdot ]$ は連結を表す。 ${\bf w}_f$ はベクトルをスカラーに射影するための重みベクトル。正規化係数はDot productと同様に ${\bf x}$ の要素数 $N$ 。

3.3. Non-local Block

　non-local operatorを既存のモデルに導入するために、ラッパーとしてnon-local blockを用いる。non-local blockは以下の式で表される。

$\displaystyle {\bf z_i} = {\bf W}_z {\bf y}_i + {\bf x}_i$

${\bf y}_i$ はnon local operatorの出力。 $+ {\bf x}_i$ はresidual connectionであり、 ${\bf W}_z$ の初期値を0にすることで事前学習済みモデルに対しても、元々の振る舞いを妨げることなくnon-local operationを導入することができる。