ViT

[論文メモ] Simple Open-Vocabulary Object Detection with Vision Transformers

arxiv.orgECCV2022検出するオブジェクトの指定に自然言語を使ったend-to-endなobject detectionモデルの提案既存のobject detectionの多くはスケーリングできず、検出可能なオブジェクトが固定されているクローズドボキャブラリーの問題がある。 近年ではCLI…

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…

[論文メモ] DeiT III: Revenge of the ViT

arxiv.orgMeta AI ただの教師あり学習だけ(自己教師あり学習なし)でVision Transformerのパフォーマンスを向上させた。 Vision Transformer(ViT)はconvolutionのような帰納バイアスが無い分能力は高いが学習しパフォーマンスを出すのが難しく、事前学習とし…

[論文メモ] DaViT: Dual Attention Vision Transformers

arxiv.org空間方向だけでなくチャンネル方向のself-attentionも導入することでglobal contextを扱えるようにした。 Vision Transformer(ViT)は画像をオーバーラップなしのパッチに切り出して、それをシーケンスとみなしてself-attention(SA)を行うが計算コス…

[論文メモ] MixFormer: Mixing Features across Windows and Dimensions

arxiv.orgCVPR2022 Oralwindow baseのattentionとdepth-wise convで双方向インタラクションすることで計算量を抑えつつlocal globalの情報を扱えるようにした。 Vision Transformer(ViT)の一つの成功例としてSwin Transformerがある。 Swin Transformerはオ…

[論文メモ] MaxViT: Multi-Axis Vision Transformer

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

[論文メモ] UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION

arxiv.orgVision Transformer(ViT)を使ったunpaired image-to-image translation。unpaired image-to-image translationでは既存手法としてCycleGAN、ACL-GAN、Council-GANなどがある(U-GAT-ITも)。 CycleGANはone-to-oneだが、ACL-GANとConucil-GANはone-to…

[論文メモ] LEARNING TO MERGE TOKENS IN VISION TRANSFORMERS

arxiv.orgGoogle ResearchVision Transformer(ViT)の内部でパッチを結合するPatch Margerを提案。Transformerはアーキテクチャの大きさに(ある程度)比例してパフォーマンスが向上するがその分計算コストがかかる。 パッチを減らせれば計算コストを抑えられる…

[論文メモ] Visual Attention Network

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。 図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…

[論文メモ] When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

arxiv.org AAAI2022Vision Transformers(ViT)において、Attentionが必要なのかを調査した。 Swin TransformerのAttentionをShift operation(zero parameters)に変更したが大きな差は出なかった。ViTが出てから様々な派生(Swin Transformerなど)が出た。それ…

[論文メモ] CONVOLUTIONAL XFORMERS FOR VISION

arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…

[論文メモ] ViT2Hash: Unsupervised Information-Preserving Hashing

arxiv.org教師なしで画像を情報を保存したバイナリコードにハッシュ化する 問題 既存の学習済みモデルを使う教師なしのハッシュ化手法は圧縮率は高いが、意味ある情報を保持するかはしっかり調査していない。 手法 学習済みモデルとしてViTを使ったInformati…

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。 手法 ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。 手法 番目のレイヤーでの番目のトークンをとする。は次元数。…

[論文メモ] Swin Transformer V2: Scaling Up Capacity and Resolution

arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。 言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

[論文メモ] Efficient Training of Visual Transformers with Small Datasets

arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…

[論文メモ] Masked Autoencoders Are Scalable Vision Learners

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

[論文メモ] VECTOR-QUANTIZED IMAGE MODELING WITH IMPROVED VQGAN

openreview.net あくまで個人的なメモVQGANの改善とベクトル量子化を使った画像生成モデル・画像分類モデルの改善。VQVAEはCNNベースのAE、VQGANはそこにadversarial lossを導入した。 これらはCNNのauto encoder(AE)の学習(ステージ1)とencodeしたlatent va…

[論文メモ] Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

arxiv.org あくまで個人的メモレベル 概要 ViTのように近年ではTransformerのCV分野への応用が活発だが、画像認識においてself-attentionが高パフォーマンスを得るための鍵なのか調査し、最近また再燃しているMLPモデルを改良したattention-freeなsMLPNetを…

[論文メモ] Fully Transformer Networks for Semantic Image Segmentation

arxiv.org図・表は論文から引用しています。 概要 NLPで使われているtransformerがsemantic segmentationでどれだけ有効なのかを調査した論文。 encoder-decoder basedなFully Transformer Networks(FTN)を提案。Transformer basedな手法としては3種類ほどあ…