arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。