[論文メモ] DaViT: Dual Attention Vision Transformers

空間方向だけでなくチャンネル方向のself-attentionも導入することでglobal contextを扱えるようにした。
f:id:Ninhydrin:20220413091328p:plain

Vision Transformer(ViT)は画像をオーバーラップなしのパッチに切り出して、それをシーケンスとみなしてself-attention(SA)を行うが計算コストが高く解像度が高いと厳しい。
Swin Transformerなどで導入されたlocal attentionは切り出したパッチをグループにまとめそのグループ内でSAすることでコストを抑えたがグループ同士のインタラクションが必要になる。
これらのピクセルレベル・パッチレベルSAの手法とは違った、計算コストもそれほど多くなくglobal contextを扱える画像レベルSAを作れないか？というお気持ち。

手法

空間方向だけではなく、チャンネル方向のSAも導入したDual Attention Blockを提案
Dual Attention Blockの構造を図3(a)に示す。
f:id:Ninhydrin:20220413092726p:plain

Spatial Window SAはSwin Transformerのものと同じ。
local window内でSAするのでグローバルな情報を扱えない。

そこでChannel Attention(CA)を導入する。
チャンネル数 $C$ 、画像の縦横を $H, W$ としたとき、空間方向のSAは長さ $HW$ の $C$ 次元特徴ベクトルのシーケンスとみなしてSAを行うのに対して、チャンネル方向のSAは長さ $C$ の $HW$ 次元特徴ベクトルのシーケンスとみなしてSAを行う。
各パッチは画像の局所的な情報を持っているのに対して、各チャンネルはすべてのパッチを横断して画像全体における特徴を持っており、CAによりグローバルな情報を扱うことが出来る。

ただ、チャンネル次元が512とかになると計算コストが大きいのでチャンネルをGroup Normのようにグループ化し、そのグループ内でチャンネル方向にSAを行う(Channel Group Attention(CGA))。空間方向でのlocal windowと同じ。
local window SAと同じ制限、つまりグループ同士でのインタラクションが必要になるがそれは空間方向のSAが担ってくれる。

計算量については省略。詳しくは論文参照。

特徴マップの可視化比較。
f:id:Ninhydrin:20220413100553p:plain

このDual Attention Blockを使ったアーキテクチャをDual Attention Vision Transformers (DaViT)とする。
よくあるViTと同じアーキテクチャ構造でパッチ埋め込みのレイヤーの後に4つのブロックがスタックされる階層構造。

ViTでお決まりのサイズ毎の複数アーキテクチャ。
$L$ が層の数、 $N_g$ がチャンネル方向SAのグループ数、 $N_h$ が空間方向SAのヘッド数。
f:id:Ninhydrin:20220413094941p:plain
f:id:Ninhydrin:20220413095009p:plain
f:id:Ninhydrin:20220413095953p:plain