2022-06-01から1ヶ月間の記事一覧

[論文メモ] StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

arxiv.orgスタイルベースなText-to-Speechの提案 間違っているかもしれないので注意。 Text-to-Speech(TTS)は進化してきたが未だに多くの課題もある。 近年のTTSは自己回帰ではなく直接音声を生成するので音素のアライメントをする外部ネットワークが必要に…

[論文メモ] Pretraining is All You Need for Image-to-Image Translation

arxiv.org学習済みの生成モデルを利用してImage-to-Image(I2I) translationを実現。I2I translationは基本的にアーキテクチャ設計が大変だったり、スクラッチからの学習が難しかったりする。 そこで既存の生成モデルを利用するI2I translationのフレームワー…