Transformer
arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。 音声データをBERT等で事前学習…
arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…
arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…
arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。 手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…
arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。 言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…
arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…
arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…
arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…
arxiv.orgFAIR 概要 オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…
arxiv.org自己教師あり学習でobject localizationを学習する論文 github.com 概要 自動運転とかでも重要なobject dectionは高精度を得るためには大量のラベル付きデータが必要。 教師なしデータでの学習方法もあるが精度が低い。 最近では顕著性に基づいた検…