ICASSP2023

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。 コンテンツ情報としてはASR…

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。 しかしアンサンブルすればパラメータが増加し学習時間が長くなる。 アンサンブルではなく、強力なdiscr…

[論文メモ] CYFI-TTS: CYCLIC NORMALIZING FLOW WITH FINE-GRAINED REPRESENTATION FOR END-TO-END TEXT-TO-SPEECH

ICASSP2023 https://ieeexplore.ieee.org/document/10095323VITSの改良VITSはE2EなTTS(VCもできるけど)モデルでテキストから複数話者の発話を生成できるが、テキストが同じでも発音は人によって異なるためここに情報のギャップが発生する。それをなんとかし…

[論文メモ] ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED USING SELF-SUPERVISED SPEECH REPRESENTATION MODEL

NTT ICASSP 2023 arxiv.org自己教師あり学習(SSL)による特徴を条件としたzero-shotのtext-to-speech(TTS)の提案既存手法の多人数話者TTSでは少量データでのfine-tuningが必要で計算コストや時間がかかる。 既存のzero-shot TTSでは話者認識ベースのd-vector…