2022-03-23から1日間の記事一覧

[論文メモ] ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis

arxiv.orgより強い話者エンコーダを用いることで、複数話者のText-to-speech(TTS)の精度を向上させた。既存のTTSでは話者エンコーダとしてd-vectorやx-vectorといった話者分類タスクを事前に学習したモデルの中間特徴を用いるが、これらだと自然性や話者性が…