[論文メモ] InsetGAN for Full-Body Image Generation

CVPR2022 GAN StyleGAN2

arxiv.org afruehstueck.github.ioCVPR2022 Adobe ResearchGANで全身生成を可能にした。一つのGANで全身レベルの多様性のあるドメインを学習するのは難しい。全身生成と顔生成の学習済みGANを使ってそれぞれを生成しシームレスに結合する。手法 Full-Body …

2022-03-15

[論文メモ] UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION

論文メモ ViT GAN Image2Image

arxiv.orgVision Transformer(ViT)を使ったunpaired image-to-image translation。unpaired image-to-image translationでは既存手法としてCycleGAN、ACL-GAN、Council-GANなどがある(U-GAT-ITも)。 CycleGANはone-to-oneだが、ACL-GANとConucil-GANはone-to…

2022-03-11

[論文メモ] Screentone-Preserved Manga Retargeting

論文メモ GAN Comic

arxiv.orgスクリーントーンの見た目を保存したまま画像をリサイズする。bilinearやbicubicでリサンプリングするとスクリーントーン部分にブラーやアーティファクトが起きる(特に縮小)。スクリーントーンは漫画の見た目に大きく影響する。全体の構造を保っ…

2022-03-08

[論文メモ] LEARNING TO MERGE TOKENS IN VISION TRANSFORMERS

論文メモ ViT

arxiv.orgGoogle ResearchVision Transformer(ViT)の内部でパッチを結合するPatch Margerを提案。Transformerはアーキテクチャの大きさに(ある程度)比例してパフォーマンスが向上するがその分計算コストがかかる。パッチを減らせれば計算コストを抑えられる…

2022-03-07

[論文メモ] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning

論文メモ Attention CVPR2022

arxiv.orgCVPR2022サンプル間の関係をネットワーク内部で学習するフレームワークを提案。サンプル間の関係を調査するフレームワークは色々あるが、基本的に入力や出力時点で行う。ミニバッチの中でのインタラクションはテスト時等を考えると適用は難しい(Ba…

2022-03-03

[論文メモ] OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks

論文メモ GAN CNN super-resolution

arxiv.org一枚の画像から単純な繰り返しではないUltra-high-resolution(UHR)な画像を生成するフレームワーク。ここでのUHRな画像はここでの8K(8192 x 5456)や16K(16384 x 10912)。 SinGANとかone-shotでの画像生成はあるが解像度は1K(1024 x 1024)ぐらいが…

2022-03-02

[論文メモ] Visual Attention Network

論文メモ Attention CNN ViT

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

2022-03-01

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

論文メモ ICASSP2022 denoising

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。手法入力音声はモノラル。ノイジーな長さの音声はきれいな音声と背景雑音の合成…

2022-03-01

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

論文メモ ICLR2022 ViT

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…

2022-02-27

[デスクフリーなディスプレイ] 奥行きの小さいデスクでディスプレイと目の距離を離すために

ディスプレイ自宅ハックモニターアーム

ディスプレイと目の距離を離したいがデスクの奥行きは短い。かといってデスクの買い替えはしたくないといった欲求に答える手段としてデスクの上にディスプレイを置くのをやめ、専用台座にモニターアームごと設置し移動できるようにしたデスクフリーなディス…

2022-02-25

[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

論文メモ voice conversion TTS

arxiv.org 間違えてるかもしれないので注意。Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コスト…

2022-02-24

[論文メモ] Multimodal Conditional Image Synthesis with Product-of-Experts GANs

論文メモ CNN conditional GAN GAN

arxiv.org deepimagination.ccNVIDIAスケッチやテキストなどのマルチモーダルを条件としたProduct-of-Experts Generative Adversarial Networks (PoE-GAN) の提案。既存のConditional GANは条件としてスケッチやテキストなど1種類の入力を条件としていた。…

2022-02-15

[論文メモ] StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets

論文メモ CNN StyleGAN StyleGAN3

arxiv.org github.comStyleGAN3でImageNetのような多様な画像を生成できるようにした。SIGGRAPH 2022StyleGANはハイクオリティかつある程度の制御可能なGANだが、制御可能にできる分、構造が一定でない分散の大きいデータセットの学習には適さない。提案する…

2022-02-09

[論文メモ] When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

論文メモ AAAI2022 ViT Attention

arxiv.org AAAI2022Vision Transformers(ViT)において、Attentionが必要なのかを調査した。 Swin TransformerのAttentionをShift operation(zero parameters)に変更したが大きな差は出なかった。ViTが出てから様々な派生(Swin Transformerなど)が出た。それ…

2022-02-08

[論文メモ] CONVOLUTIONAL XFORMERS FOR VISION

論文メモ ViT Transformer

arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…

2022-02-04

[論文メモ] VARIATIONAL NEURAL CELLULAR AUTOMATA

論文メモ CNN ICLR2022

arxiv.org github.com ICLR2022セル・オートマトンを使った生成モデルVariational Neural Cellular Automataを提案導入人や木、微生物など多様な生物は細胞の成長と分化により生成される。セル・オートマトン(CA)はここから着想を得たモデルでセルの状態…

2022-02-01

[論文メモ] Noise-robust voice conversion with domain adversarial training

論文メモ voice conversion Domain adversarial training

arxiv.org dhqadg.github.ioAuto Encoder(AE)タイプのVoice Conversion(VC)できれいな音声とノイズの乗った音声をDomain adversarial trainingを使って同じ空間に写像することでノイズ耐性をつける。事前知識 Domain adversarial training (DAT)について。 …

2022-01-28

[論文メモ] Disentangling Style and Speaker Attributes for TTS Style Transfer

論文メモ TTS

arxiv.orgxiaochunan.github.iospeech style transferにおいてseen、unseenの両方を改善したAE型のEnd to End なTTSモデルの提案手法全体像は図1 ソースとなる発話を、ターゲットとなる発話をとする。これらの発話はスタイル特徴と話者特徴に分けられると…

2022-01-25

[論文メモ] Discovering Interpretable Latent Space Directions of GANs Beyond Binary Attributes

論文メモ Style Editing StyleGAN CVPR2021

openaccess.thecvf.com github.comCVPR2021学習済みStyleGANから特定の属性操作をした画像を生成する。よくある手法では属性のスコア情報やバイナリラベルを利用するが、それだとスタイルなどの抽象的な属性の変更は難しい。提案手法ではターゲット属性の画…

2022-01-21

[論文メモ] COLLAPSE BY CONDITIONING: TRAINING CLASSCONDITIONAL GANS WITH LIMITED DATA

論文メモ conditional GAN Limited Data StyleGAN2 GAN ICLR2022

arxiv.org github.com少ないデータでmode collapseしないようなConditional GAN(cGAN)の学習方法の提案問題点少量データでGANを学習するとき、unconditionalだと安定して多様な画像が学習できるにも関わらず、conditional にするとmode collapseが起こる(…

2022-01-20

[論文メモ] ViT2Hash: Unsupervised Information-Preserving Hashing

論文メモ ViT Unsupervised Learning

arxiv.org教師なしで画像を情報を保存したバイナリコードにハッシュ化する問題既存の学習済みモデルを使う教師なしのハッシュ化手法は圧縮率は高いが、意味ある情報を保持するかはしっかり調査していない。手法学習済みモデルとしてViTを使ったInformati…

2022-01-18

[論文メモ] SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps

GAN 論文メモ conditional GAN

arxiv.org carlosrodriguezpardo.es1枚のテクスチャ画像から、シームレスにタイル貼り可能な画像を生成するSeamlessGANを提案。普通に切り取って並べると不連続な部分が生まれるが、提案手法のSeamlessGANではそれがない。手法入力はtexture stack(タイル…

2022-01-14

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

論文メモ Attention ViT ICLR2022

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。手法ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

2022-01-11

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

ViT 論文メモ CVPR2022

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。手法番目のレイヤーでの番目のトークンをとする。は次元数。…

にんひどりんはんのう

日々のメモ

2022-01-01から1年間の記事一覧