論文メモ

[論文メモ] Discovering Interpretable Latent Space Directions of GANs Beyond Binary Attributes

openaccess.thecvf.com github.comCVPR2021学習済みStyleGANから特定の属性操作をした画像を生成する。よくある手法では属性のスコア情報やバイナリラベルを利用するが、それだとスタイルなどの抽象的な属性の変更は難しい。 提案手法ではターゲット属性の画…

[論文メモ] COLLAPSE BY CONDITIONING: TRAINING CLASSCONDITIONAL GANS WITH LIMITED DATA

arxiv.org github.com少ないデータでmode collapseしないようなConditional GAN(cGAN)の学習方法の提案 問題点 少量データでGANを学習するとき、unconditionalだと安定して多様な画像が学習できるにも関わらず、conditional にするとmode collapseが起こる(…

[論文メモ] ViT2Hash: Unsupervised Information-Preserving Hashing

arxiv.org教師なしで画像を情報を保存したバイナリコードにハッシュ化する 問題 既存の学習済みモデルを使う教師なしのハッシュ化手法は圧縮率は高いが、意味ある情報を保持するかはしっかり調査していない。 手法 学習済みモデルとしてViTを使ったInformati…

[論文メモ] SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps

arxiv.org carlosrodriguezpardo.es1枚のテクスチャ画像から、シームレスにタイル貼り可能な画像を生成するSeamlessGANを提案。 普通に切り取って並べると不連続な部分が生まれるが、提案手法のSeamlessGANではそれがない。 手法 入力はtexture stack(タイル…

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。 手法 ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。 手法 番目のレイヤーでの番目のトークンをとする。は次元数。…

[論文メモ] Mask2Former for Video Instance Segmentation

arxiv.orggithub.comMask2Formerを動画に拡張した。著者はMask2Formerと大体同じ。 手法 Mask2Formerから3つの変更。 Joint spatio-temporal masked attention Mask2Formerは次元がheightとwidthだったが、そこにtimeの次元を追加した(だけ)。 なのでマスク…

[論文メモ] Masked-attention Mask Transformer for Universal Image Segmentation

arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。 手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…

[論文メモ] GAN-Supervised Dense Visual Alignment

arxiv.orggithub.comCVPR2022 GANを使ったDense Visual Alignmentの学習 手法 学習済みのGANによるサンプルとそのを生成する潜在変数を操作して得られたサンプルのペア (, )を利用した教師あり学習。このペアデータを使ってネットワークを学習する。画像の空…

[論文メモ] SELF-ATTENTION DOES NOT NEED O(n^2) MEMORY

arxiv.orgself-attentionの計算にメモリは必要ないself-attentionはクエリ、長さのキーとバリューをそれぞれ、として次の式で表せる(ただしクエリが1つのとき)。 普通に実装するとの計算・保存ためにの計算量とメモリが必要。そしてself-attentionは必要。…

[論文メモ] TRAINING ROBUST ZERO-SHOT VOICE CONVERSION MODELS WITH SELF-SUPERVISED FEATURES

arxiv.org 教師なし学習によるVoice Conversion(VC) modelの学習 執筆当時、結果のURL。 trungd.github.ioあくまでメモ。間違っているかもしれない。 手法 をそれぞれソース・ターゲットの音声、をそれぞれソース・ターゲットの音声特徴(MFCCとか)とする。 …

[論文メモ] Swin Transformer V2: Scaling Up Capacity and Resolution

arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。 言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

[論文メモ] Sparse is Enough in Scaling Transformers

arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。 でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。 そこでT…

Image-to-Image Translation with Low Resolution Conditioning

arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。 手法 概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。 は小さい値にす…