2022-01-01から1ヶ月間の記事一覧

[論文メモ] Disentangling Style and Speaker Attributes for TTS Style Transfer

arxiv.orgxiaochunan.github.iospeech style transferにおいてseen、unseenの両方を改善したAE型のEnd to End なTTSモデルの提案 手法 全体像は図1 ソースとなる発話を、ターゲットとなる発話をとする。 これらの発話はスタイル特徴と話者特徴に分けられると…

[論文メモ] Discovering Interpretable Latent Space Directions of GANs Beyond Binary Attributes

openaccess.thecvf.com github.comCVPR2021学習済みStyleGANから特定の属性操作をした画像を生成する。よくある手法では属性のスコア情報やバイナリラベルを利用するが、それだとスタイルなどの抽象的な属性の変更は難しい。 提案手法ではターゲット属性の画…

[論文メモ] COLLAPSE BY CONDITIONING: TRAINING CLASSCONDITIONAL GANS WITH LIMITED DATA

arxiv.org github.com少ないデータでmode collapseしないようなConditional GAN(cGAN)の学習方法の提案 問題点 少量データでGANを学習するとき、unconditionalだと安定して多様な画像が学習できるにも関わらず、conditional にするとmode collapseが起こる(…

[論文メモ] ViT2Hash: Unsupervised Information-Preserving Hashing

arxiv.org教師なしで画像を情報を保存したバイナリコードにハッシュ化する 問題 既存の学習済みモデルを使う教師なしのハッシュ化手法は圧縮率は高いが、意味ある情報を保持するかはしっかり調査していない。 手法 学習済みモデルとしてViTを使ったInformati…

[論文メモ] SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps

arxiv.org carlosrodriguezpardo.es1枚のテクスチャ画像から、シームレスにタイル貼り可能な画像を生成するSeamlessGANを提案。 普通に切り取って並べると不連続な部分が生まれるが、提案手法のSeamlessGANではそれがない。 手法 入力はtexture stack(タイル…

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。 手法 ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。 手法 番目のレイヤーでの番目のトークンをとする。は次元数。…