[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org
間違えてるかもしれないので注意。

Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。
f:id:Ninhydrin:20220224094559p:plain
既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コストが高い(ユーザーが多いと更に大変)、Encoderを使うのはクオリティが低い(Encoderの解像度だと表現しきれない)。
なので提案するnnSpeech(no new speech)ではSpeakerをガイドとしたCVAEを利用してzero-shot化する。

手法

f:id:Ninhydrin:20220224093009p:plain

CVAEは条件付きのVAEで下記の条件付きの対数尤度で学習する。

f:id:Ninhydrin:20220224093608p:plain

$X$ をメルスペクトログラムEncoderの出力、 $C$ を音素Encoderの出力とする。
メルスペクトログラムEncoderはAdaIN-VCのものを、音素EncoderはFastSpeech2のものを利用する。

条件付き分布 $p(X, Z|C) = p_{\theta}(X|C, Z)p_{\theta}(Z|C)$ を考える( $p_{\theta}(X|C, Z)$ 、 $p_{\theta}(Z|C)$ はネットワークでモデリング)。
図1(a)のように真の $p_{\theta}(Z|C)$ を $p_{\phi}(Z|C,X)$ でモデリングすると、メルスペクトログラム $X$ を再構成するときに潜在変数 $Z$ が話者情報を持つ必要があるため直感に反する。

そこでspeaker-guided CVAEを提案する。 $Z$ が話者情報 $S$ に基づいていると仮定する( $p_{\theta}(Z|C) = p_{\theta}(Z|C,S)$ )。そして $p_{\theta}(Z|C,S)$ を $q_{\theta}(Z|C,X)$ で予測する。
$Z$ は $C$ の情報を含んでいるので $p_{\theta}(X|C, Z, S) = p_{\theta}(X|Z, S)$ とできる。