[論文メモ] Masked Autoencoders that Listen

arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。音声データをBERT等で事前学習…

2022-04-05

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

論文メモ CVPR2022 Attention ViT Transformer fine-tuning

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

2022-02-08

[論文メモ] CONVOLUTIONAL XFORMERS FOR VISION

論文メモ ViT Transformer

arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…

2021-12-23

[論文メモ] Masked-attention Mask Transformer for Universal Image Segmentation

論文メモ Panoptic Segmentatiom segmentation Transformer Attention

arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…

2021-12-10

[論文メモ] Swin Transformer V2: Scaling Up Capacity and Resolution

ViT 論文メモ Transformer

arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…

2021-12-07

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

Attention 論文メモ Transformer Object Detection ViT

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

2021-11-25

[論文メモ] Efficient Training of Visual Transformers with Small Datasets

Transformer ViT 論文読み

arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…

2021-10-22

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

CNN 論文読み ViT Transformer

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

2021-10-21

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

Transformer 論文読み Attention

arxiv.orgFAIR 概要オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…