2022-05-01から1ヶ月間の記事一覧

[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

arxiv.orgEnd-to-EndなVoice Conversion(VC)モデルの提案。既存のVCは(メル)スペクトログラム + Vocoder ベースのものが多い。スペクトログラム+Vocoderベースだと、生成されたスペクトログラムの品質やVocoderの品質に左右されるし、スペクトログラムベース…

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

arxiv.org既存のコンテンツと話者分離系のVoice Conversion(VC)の改良既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。 DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手…

[論文メモ] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

arxiv.org github.comINTERSPEECH 2021高速・高品質なVocoder、UnivNetを提案多くのVocoderは帯域制限したメルスペクトログラムから音声波形を生成する。 しかし、一部のモデルでは生成結果のスペクトログラムがオーバースムージングされる問題がある。 これ…

TorToiSe TTSの個人的なメモ

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。 推論等も混ざっていて間違っているかもしれないのであしからず。 図は基本的に作者のWebページから(図が…