[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

既存のコンテンツと話者分離系のVoice Conversion(VC)の改良

既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。
DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手法。
しかし、DSVAEはコンテンツをランダムに初期化された分布に埋め込むため音声の構造がうまく表現できない。

DSVAEは各エンコーダで話者とコンテンツをエンコードし、それらをconcatして音声にする。

入力 $X$ と出力 $\hat X$ は両方メルスペクトログラムで音声にするときはVocoderを利用する(HiFi-GAN V1)。
はじめの層を共有したコンテンツエンコーダ $E_C$ と話者エンコーダ $E_S$ は入力 $X$ からコンテンツ埋め込み $z_c$ と話者埋め込み $z_s$ の事後分布、それぞれ、 $q_{\theta}(z_c|X)$ と $q_{\theta}(z_s|X)$ を予測する。
そして各分布から $z_c$ と $z_s$ をサンプリングしデコーダ $D$ によってメルスペクトログラム $\hat X = D(z_c, z_s)$ を得る。
DSVAEの目的関数は以下。

DSVAEではコンテンツの事前分布 $p_{\theta}$ をランダムに初期化された分布を利用しているが、これがコンテンツ埋め込みの学習に適していないと指摘。
同じ発話の $z_c$ をt-SNEで可視化した結果が図2。(a)がDSVAEが学習したコンテンツ埋め込み、(c)がメルスペクトログラムそのまま。DSVAEの埋め込みはランダムな分布になっている。

ちょっとよくわからないが、同じ発話の特徴は近くにあってほしいということ？でもコンテンツならそうならなくない？何か勘違いしてるかも？