[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion
Interspeech 2022
マルチリンガル・複数話者のFlowベースのVoice Conversion
既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整しないと話者情報がリークする。
新規の言語に対して再学習しなくても対応できる、言語について独立したVoice Conversion(VC)が必要というお気持ち。
手法
ベースはGlow-TTS
arxiv.org
Glow-TTSではmonotonic alignment search(MAS)をつかって音素のアライメントを行っていたが、MASは学習が難しく生成結果の自然性も良くなかったため事前学習したdurationを利用した。
また
- コンテンツエンコーダを単純な構造に
- コンテンツエンコーダの入力に言語情報(one hot)を追加
- コンテンツエンコーダの出力に正規化したF0を追加
したことで既存手法より自然な韻律となった。
GlowVCとしてGlowVC-conditionalとGlowVC-explicitの2種類を提案
GlowVC-conditional
マルチリンガル版のGlow-TTS。図1(a)を参照。
Glow-TTSはコンテンツ情報を条件とした条件付き分布でメルスペクトログラムをモデル化していたが、GlowVC-conditionalでは話者情報とピッチ(F0)情報も条件に追加。つまり。
これは事前分布をを条件にとる可逆なflowベースのデコーダに通すことよって得られる。
事前分布はでそれぞれピッチとコンテンツに対応するランダムな値で(も同じ)。
以上から以下のようにできる。
Glow-TTS(Glow)に条件が追加されただけ。
なお
では特徴量、はメルスペクトログラムの長さ。
目的関数は対数尤度最大化。
はモデルのパラメータ。
ソース話者からターゲット話者にVCするときはを適用する。ピッチ情報やコンテンツ情報は必要なく、メルスペクトログラムからへ話者情報を抜いていく。
GlowVC-explicit
メルスペクトログラムをコンテンツ情報、ピッチ情報、話者情報に分解する。GlowVC-conditionalと異なり、をで構成する(図1(b)を参照)。
話者に関する事前分布は話者エンコーダから得たを平均、分散としたガウシアンでモデル化()。
式(2)が以下になる。
ソース話者[tes:s_0]からターゲット話者にVCするときはを保ったままをにする。
実験・結果
マルチリンガルのクリーンなプロの読み上げデータセットで学習。
合計380時間の280kの発話データで5言語(de-DE, en-US, es-ES, fr-FR, it-IT)。
これは自前?
評価には全25話者の利用していない発話と、追加の6話者の利用していない言語(en-GB, pt-BR, ru-RU)を利用。
実験は4種類
1) 同じ言語で seenな話者・言語 -> seenな話者・言語
2) 異なる言語で seenな話者・言語 -> seenな話者・言語
3) 異なる言語で seenな話者・言語 -> unseenな話者・言語
4) 異なる言語で unseenな話者・言語 -> seenな話者・言語
評価指標は
Word Error Rate(WER): AWS Transcribeをつかった音声認識でのGTとの比較
MUSHRA speaker similarity: MUSHRAによる話者の類似度
MUSHRA naturalness:MUSHRAによる自然性
所感
言語情報をonehotで入れるだけで正直大きな感動はなかった。
flowベースのVCが流行っているので色々試してみたいところ。