[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

論文メモ voice conversion

arxiv.orgEnd-to-EndなVoice Conversion(VC)モデルの提案。既存のVCは(メル)スペクトログラム + Vocoder ベースのものが多い。スペクトログラム+Vocoderベースだと、生成されたスペクトログラムの品質やVocoderの品質に左右されるし、スペクトログラムベース…

2022-05-17

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

論文メモ voice conversion

arxiv.org既存のコンテンツと話者分離系のVoice Conversion(VC)の改良既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。 DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手…

2022-05-16

[論文メモ] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

論文メモ Vocoder INTERSPEECH2021

arxiv.org github.comINTERSPEECH 2021高速・高品質なVocoder、UnivNetを提案多くのVocoderは帯域制限したメルスペクトログラムから音声波形を生成する。しかし、一部のモデルでは生成結果のスペクトログラムがオーバースムージングされる問題がある。これ…

2022-05-12

TorToiSe TTSの個人的なメモ

TTS voice conversion

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。推論等も混ざっていて間違っているかもしれないのであしからず。図は基本的に作者のWebページから(図が…

にんひどりんはんのう

日々のメモ

2022-05-01から1ヶ月間の記事一覧

[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

[論文メモ] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

TorToiSe TTSの個人的なメモ