[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

Interspeech 2022

マルチリンガル・複数話者のFlowベースのVoice Conversion

既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整しないと話者情報がリークする。
新規の言語に対して再学習しなくても対応できる、言語について独立したVoice Conversion(VC)が必要というお気持ち。

手法

ベースはGlow-TTS
arxiv.org

Glow-TTSではmonotonic alignment search(MAS)をつかって音素のアライメントを行っていたが、MASは学習が難しく生成結果の自然性も良くなかったため事前学習したdurationを利用した。

また

コンテンツエンコーダを単純な構造に
コンテンツエンコーダの入力に言語情報(one hot)を追加
コンテンツエンコーダの出力に正規化したF0を追加

したことで既存手法より自然な韻律となった。

GlowVCとしてGlowVC-conditionalとGlowVC-explicitの2種類を提案

GlowVC-conditional

マルチリンガル版のGlow-TTS。図1(a)を参照。
Glow-TTSはコンテンツ情報 $c$ を条件とした条件付き分布でメルスペクトログラム $x$ をモデル化していたが、GlowVC-conditionalでは話者情報 $s$ とピッチ(F0)情報 $p$ も条件に追加。つまり $P_{X}(x|c, p, s)$ 。
これは事前分布 $P_{Z}(z|c, p)$ を $s$ を条件にとる可逆なflowベースのデコーダ $f^{(s)}: z \rightarrow x$ に通すことよって得られる。

事前分布は $Z = (Z^{(c)}, Z^{(p)})$ でそれぞれピッチとコンテンツに対応するランダムな値で $Z^{(c)} \sim \mathcal{N}(\mu^{(c)}, \sigma^{(c)})$ ( $p$ も同じ)。

以上から以下のようにできる。

Glow-TTS(Glow)に条件が追加されただけ。

なお

で $d$ は特徴量、 $T$ はメルスペクトログラムの長さ。

目的関数は対数尤度最大化。

$\theta$ はモデルのパラメータ。

ソース話者 $s_0$ からターゲット話者 $s_1$ にVCするときは $f^{(s_1)} \circ (f^{(s_0)})^{-1}$ を適用する。ピッチ情報やコンテンツ情報は必要なく、メルスペクトログラム $x$ から $z$ へ話者情報を抜いていく。

GlowVC-explicit

メルスペクトログラムをコンテンツ情報、ピッチ情報、話者情報に分解する。GlowVC-conditionalと異なり、 $Z$ を $Z=(Z^{(c)}, Z^{(p)}, Z^{(s)})$ で構成する(図1(b)を参照)。
話者に関する事前分布 $Z^{(p)}$ は話者エンコーダから得た $\mu^{(s)}, \sigma^{(s)}$ を平均、分散としたガウシアンでモデル化( $Z^{(s)} \sim \mathcal{N} (\mu^{(s)}, \sigma^{(s)})$ )。

式(2)が以下になる。

ソース話者[tes:s_0]からターゲット話者 $s_1$ にVCするときは $z^{c}, z^{(p)}$ を保ったまま $z^{(s_0)}$ を $\mu^{(s_1)}$ にする。

アーキテクチャ

コンテンツエンコーダは図1(c)の通りで音素、言語を埋め込んでconcatし、Conv->BiLSTMのシンプルな構造。
話者エンコーダは単純な線形変換。
flowベースのデコーダはGlowとconditional Glow。隠れ層のサイズ以外はGlow-TTSそのまま。

実験・結果

マルチリンガルのクリーンなプロの読み上げデータセットで学習。
合計380時間の280kの発話データで5言語(de-DE, en-US, es-ES, fr-FR, it-IT)。
これは自前？

評価には全25話者の利用していない発話と、追加の6話者の利用していない言語(en-GB, pt-BR, ru-RU)を利用。
実験は4種類
1) 同じ言語で　seenな話者・言語 -> seenな話者・言語
2) 異なる言語で　seenな話者・言語 -> seenな話者・言語
3) 異なる言語で　seenな話者・言語 -> unseenな話者・言語
4) 異なる言語で　unseenな話者・言語 -> seenな話者・言語

評価指標は
Word Error Rate(WER)： AWS Transcribeをつかった音声認識でのGTとの比較
MUSHRA speaker similarity： MUSHRAによる話者の類似度
MUSHRA naturalness：MUSHRAによる自然性