2022-02-01から1ヶ月間の記事一覧

[デスクフリーなディスプレイ] 奥行きの小さいデスクでディスプレイと目の距離を離すために

ディスプレイと目の距離を離したいがデスクの奥行きは短い。かといってデスクの買い替えはしたくないといった欲求に答える手段としてデスクの上にディスプレイを置くのをやめ、専用台座にモニターアームごと設置し移動できるようにしたデスクフリーなディス…

[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org 間違えてるかもしれないので注意。Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。 既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コスト…

[論文メモ] Multimodal Conditional Image Synthesis with Product-of-Experts GANs

arxiv.org deepimagination.ccNVIDIAスケッチやテキストなどのマルチモーダルを条件としたProduct-of-Experts Generative Adversarial Networks (PoE-GAN) の提案。 既存のConditional GANは条件としてスケッチやテキストなど1種類の入力を条件としていた。…

[論文メモ] StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets

arxiv.org github.comStyleGAN3でImageNetのような多様な画像を生成できるようにした。SIGGRAPH 2022StyleGANはハイクオリティかつある程度の制御可能なGANだが、制御可能にできる分、構造が一定でない分散の大きいデータセットの学習には適さない。提案する…

[論文メモ] When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

arxiv.org AAAI2022Vision Transformers(ViT)において、Attentionが必要なのかを調査した。 Swin TransformerのAttentionをShift operation(zero parameters)に変更したが大きな差は出なかった。ViTが出てから様々な派生(Swin Transformerなど)が出た。それ…

[論文メモ] CONVOLUTIONAL XFORMERS FOR VISION

arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…

[論文メモ] VARIATIONAL NEURAL CELLULAR AUTOMATA

arxiv.org github.com ICLR2022セル・オートマトンを使った生成モデルVariational Neural Cellular Automataを提案 導入 人や木、微生物など多様な生物は細胞の成長と分化により生成される。 セル・オートマトン(CA)はここから着想を得たモデルでセルの状態…

[論文メモ] Noise-robust voice conversion with domain adversarial training

arxiv.org dhqadg.github.ioAuto Encoder(AE)タイプのVoice Conversion(VC)できれいな音声とノイズの乗った音声をDomain adversarial trainingを使って同じ空間に写像することでノイズ耐性をつける。 事前知識 Domain adversarial training (DAT)について。 …