[論文メモ] Pretraining is All You Need for Image-to-Image Translation

arxiv.org学習済みの生成モデルを利用してImage-to-Image(I2I) translationを実現。I2I translationは基本的にアーキテクチャ設計が大変だったり、スクラッチからの学習が難しかったりする。 そこで既存の生成モデルを利用するI2I translationのフレームワー…

[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

arxiv.orgEnd-to-EndなVoice Conversion(VC)モデルの提案。既存のVCは(メル)スペクトログラム + Vocoder ベースのものが多い。スペクトログラム+Vocoderベースだと、生成されたスペクトログラムの品質やVocoderの品質に左右されるし、スペクトログラムベース…

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

arxiv.org既存のコンテンツと話者分離系のVoice Conversion(VC)の改良既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。 DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手…

[論文メモ] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

arxiv.org github.comINTERSPEECH 2021高速・高品質なVocoder、UnivNetを提案多くのVocoderは帯域制限したメルスペクトログラムから音声波形を生成する。 しかし、一部のモデルでは生成結果のスペクトログラムがオーバースムージングされる問題がある。 これ…

TorToiSe TTSの個人的なメモ

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。 推論等も混ざっていて間違っているかもしれないのであしからず。 図は基本的に作者のWebページから(図が…

[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。 高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。 手法 ネットワー…

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

[論文メモ] DeiT III: Revenge of the ViT

arxiv.orgMeta AI ただの教師あり学習だけ(自己教師あり学習なし)でVision Transformerのパフォーマンスを向上させた。 Vision Transformer(ViT)はconvolutionのような帰納バイアスが無い分能力は高いが学習しパフォーマンスを出すのが難しく、事前学習とし…

[論文メモ] Simple Baselines for Image Restoration

arxiv.org画像修復タスクで非線形の活性化関数なしのシンプルなSOTAモデルを提案。既存のSOTA手法は複雑だが、このモデルの複雑さをinter-blockとintra-blockに分けて考えてみる。inter-blocはアーキテクチャ自体についてで、図2のようにマルチスケールやマ…

[論文メモ] DaViT: Dual Attention Vision Transformers

arxiv.org空間方向だけでなくチャンネル方向のself-attentionも導入することでglobal contextを扱えるようにした。 Vision Transformer(ViT)は画像をオーバーラップなしのパッチに切り出して、それをシーケンスとみなしてself-attention(SA)を行うが計算コス…

[論文メモ] PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

arxiv.orgPixel Shufflerを使ったピクセルレベルの画像生成既存手法にCIPSというのがあり、これはピクセル座標と潜在変数から画像を生成するというもの。ピクセルは独立で、空間方向でのconvolutionはなく、基本ピクセル独立のMLP(Network In Networkみたい…

[論文メモ] MixFormer: Mixing Features across Windows and Dimensions

arxiv.orgCVPR2022 Oralwindow baseのattentionとdepth-wise convで双方向インタラクションすることで計算量を抑えつつlocal globalの情報を扱えるようにした。 Vision Transformer(ViT)の一つの成功例としてSwin Transformerがある。 Swin Transformerはオ…

[論文メモ] MaxViT: Multi-Axis Vision Transformer

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

arxiv.org thuhcsi.github.ioICASSP 2022Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。CElossで学習した音声認識モデルの特徴…

[論文メモ] CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training

arxiv.orgAdobe Research 間違いがあるかもしれないので注意。大きな欠損のある画像の補完が出来る、cascaded modulation GAN (CM-GAN)の提案。大きな欠損を補完出来る既存手法としてLaMaやCoModGANがあるが、それでもまだ厳しい。 それはマスクされた補完箇…

[論文メモ] ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis

arxiv.orgより強い話者エンコーダを用いることで、複数話者のText-to-speech(TTS)の精度を向上させた。既存のTTSでは話者エンコーダとしてd-vectorやx-vectorといった話者分類タスクを事前に学習したモデルの中間特徴を用いるが、これらだと自然性や話者性が…

[論文メモ] InsetGAN for Full-Body Image Generation

arxiv.org afruehstueck.github.ioCVPR2022 Adobe ResearchGANで全身生成を可能にした。 一つのGANで全身レベルの多様性のあるドメインを学習するのは難しい。全身生成と顔生成の学習済みGANを使ってそれぞれを生成しシームレスに結合する。 手法 Full-Body …

[論文メモ] UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION

arxiv.orgVision Transformer(ViT)を使ったunpaired image-to-image translation。unpaired image-to-image translationでは既存手法としてCycleGAN、ACL-GAN、Council-GANなどがある(U-GAT-ITも)。 CycleGANはone-to-oneだが、ACL-GANとConucil-GANはone-to…

[論文メモ] Screentone-Preserved Manga Retargeting

arxiv.orgスクリーントーンの見た目を保存したまま画像をリサイズする。bilinearやbicubicでリサンプリングするとスクリーントーン部分にブラーやアーティファクトが起きる(特に縮小)。 スクリーントーンは漫画の見た目に大きく影響する。 全体の構造を保っ…

[論文メモ] LEARNING TO MERGE TOKENS IN VISION TRANSFORMERS

arxiv.orgGoogle ResearchVision Transformer(ViT)の内部でパッチを結合するPatch Margerを提案。Transformerはアーキテクチャの大きさに(ある程度)比例してパフォーマンスが向上するがその分計算コストがかかる。 パッチを減らせれば計算コストを抑えられる…

[論文メモ] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning

arxiv.orgCVPR2022サンプル間の関係をネットワーク内部で学習するフレームワークを提案。サンプル間の関係を調査するフレームワークは色々あるが、基本的に入力や出力時点で行う。 ミニバッチの中でのインタラクションはテスト時等を考えると適用は難しい(Ba…

[論文メモ] OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks

arxiv.org一枚の画像から単純な繰り返しではないUltra-high-resolution(UHR)な画像を生成するフレームワーク。 ここでのUHRな画像はここでの8K(8192 x 5456)や16K(16384 x 10912)。 SinGANとかone-shotでの画像生成はあるが解像度は1K(1024 x 1024)ぐらいが…

[論文メモ] Visual Attention Network

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。 手法 入力音声はモノラル。 ノイジーな長さの音声はきれいな音声と背景雑音の合成…

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。 図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…

[デスクフリーなディスプレイ] 奥行きの小さいデスクでディスプレイと目の距離を離すために

ディスプレイと目の距離を離したいがデスクの奥行きは短い。かといってデスクの買い替えはしたくないといった欲求に答える手段としてデスクの上にディスプレイを置くのをやめ、専用台座にモニターアームごと設置し移動できるようにしたデスクフリーなディス…

[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org 間違えてるかもしれないので注意。Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。 既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コスト…

[論文メモ] Multimodal Conditional Image Synthesis with Product-of-Experts GANs

arxiv.org deepimagination.ccNVIDIAスケッチやテキストなどのマルチモーダルを条件としたProduct-of-Experts Generative Adversarial Networks (PoE-GAN) の提案。 既存のConditional GANは条件としてスケッチやテキストなど1種類の入力を条件としていた。…

[論文メモ] StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets

arxiv.org github.comStyleGAN3でImageNetのような多様な画像を生成できるようにした。SIGGRAPH 2022StyleGANはハイクオリティかつある程度の制御可能なGANだが、制御可能にできる分、構造が一定でない分散の大きいデータセットの学習には適さない。提案する…