Attention

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…

[論文メモ] MaxViT: Multi-Axis Vision Transformer

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

[論文メモ] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning

arxiv.orgCVPR2022サンプル間の関係をネットワーク内部で学習するフレームワークを提案。サンプル間の関係を調査するフレームワークは色々あるが、基本的に入力や出力時点で行う。 ミニバッチの中でのインタラクションはテスト時等を考えると適用は難しい(Ba…

[論文メモ] Visual Attention Network

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

[論文メモ] When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

arxiv.org AAAI2022Vision Transformers(ViT)において、Attentionが必要なのかを調査した。 Swin TransformerのAttentionをShift operation(zero parameters)に変更したが大きな差は出なかった。ViTが出てから様々な派生(Swin Transformerなど)が出た。それ…

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。 手法 ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

[論文メモ] Masked-attention Mask Transformer for Universal Image Segmentation

arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。 手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…

[論文メモ] SELF-ATTENTION DOES NOT NEED O(n^2) MEMORY

arxiv.orgself-attentionの計算にメモリは必要ないself-attentionはクエリ、長さのキーとバリューをそれぞれ、として次の式で表せる(ただしクエリが1つのとき)。 普通に実装するとの計算・保存ためにの計算量とメモリが必要。そしてself-attentionは必要。…

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

[論文メモ] Sparse is Enough in Scaling Transformers

arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。 でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。 そこでT…

[論文メモ] Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning

arxiv.orgNeurIPS2021単純にデータを学習して予測をするのではなく、学習データそのもの(全体)を使って予測をするNon-Parametric Transformers (NPTs)を提案。 手法 Non-Parametric Transformers(NPTs)について。 NPTsは予測を改善するためにデータポイント…

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

arxiv.orgFAIR 概要 オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…

[論文メモ] Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

arxiv.org あくまで個人的メモレベル 概要 ViTのように近年ではTransformerのCV分野への応用が活発だが、画像認識においてself-attentionが高パフォーマンスを得るための鍵なのか調査し、最近また再燃しているMLPモデルを改良したattention-freeなsMLPNetを…

[論文メモ] Panoptic SegFormer

arxiv.orgtransformerを使ってPanoptic Segmentation(PSと略す)を行った論文。テクニカルレポート。 PAはSemantic Segmentation(画像中の全てのピクセルをクラス分類. SSと略す)とInstance Segmentation(物体毎に領域分割しインスタンスを区別する. ISと略す…

[論文メモ] Fully Transformer Networks for Semantic Image Segmentation

arxiv.org図・表は論文から引用しています。 概要 NLPで使われているtransformerがsemantic segmentationでどれだけ有効なのかを調査した論文。 encoder-decoder basedなFully Transformer Networks(FTN)を提案。Transformer basedな手法としては3種類ほどあ…

Learn to Pay Attention

https://arxiv.org/abs/1804.02391 ICLR2018。 CNNにおけるチャンネル方向ではなく空間方向へのAttentionモデルの提案。タイトルがいいよね。 図を見たほうが早い。 決められたそれぞれの特徴量マップに対してAttentionを行う。画像のどこに注目するかという…