[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

2023-08-10

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

論文メモ ICASSP2023 voice conversion Self-Supervised

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。コンテンツ情報としてはASR…

2023-08-09

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

論文メモ ICASSP2023 Speech Synthesis VITS HiFi-GAN

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。しかしアンサンブルすればパラメータが増加し学習時間が長くなる。アンサンブルではなく、強力なdiscr…

にんひどりんはんのう

日々のメモ

2023-08-01から1ヶ月間の記事一覧

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS