CVPR2022

[論文メモ] MixFormer: Mixing Features across Windows and Dimensions

arxiv.orgCVPR2022 Oralwindow baseのattentionとdepth-wise convで双方向インタラクションすることで計算量を抑えつつlocal globalの情報を扱えるようにした。 Vision Transformer(ViT)の一つの成功例としてSwin Transformerがある。 Swin Transformerはオ…

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

[論文メモ] InsetGAN for Full-Body Image Generation

arxiv.org afruehstueck.github.ioCVPR2022 Adobe ResearchGANで全身生成を可能にした。 一つのGANで全身レベルの多様性のあるドメインを学習するのは難しい。全身生成と顔生成の学習済みGANを使ってそれぞれを生成しシームレスに結合する。 手法 Full-Body …

[論文メモ] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning

arxiv.orgCVPR2022サンプル間の関係をネットワーク内部で学習するフレームワークを提案。サンプル間の関係を調査するフレームワークは色々あるが、基本的に入力や出力時点で行う。 ミニバッチの中でのインタラクションはテスト時等を考えると適用は難しい(Ba…

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。 手法 番目のレイヤーでの番目のトークンをとする。は次元数。…

[論文メモ] GAN-Supervised Dense Visual Alignment

arxiv.orggithub.comCVPR2022 GANを使ったDense Visual Alignmentの学習 手法 学習済みのGANによるサンプルとそのを生成する潜在変数を操作して得られたサンプルのペア (, )を利用した教師あり学習。このペアデータを使ってネットワークを学習する。画像の空…