[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION
ICASSP 2022
Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。
CElossで学習した音声認識モデルの特徴量を使うと音色が劣化し、CTClossで学習した音声認識モデルの特徴量を使うと自然性が劣化する。
そこで2つの特徴を利用したハイブリッドなモデルを構築する。
手法
全体図は以下の図2参照。5つのモジュールからなる。
音声認識はconformerベースのものを利用。transformerとCNNを合わせたモデルで最近のSOTAらしい。
同じアーキテクチャの2つモデルをCE lossとCTC lossそれぞれで学習し、中間から抽出した256次元の特徴を利用する。
図2の左、CE-BNFsとCTC-BNFsがそれ。BNFはBottleneck featureの略。
VCモデルとしては2つのエンコーダと1つのデコーダからなる。
2つのエンコーダはコンテンツ用と韻律用でコンテンツエンコーダはCTC-BNFsを、韻律エンコーダはCE-BNFsを受け取り特徴量に埋め込まれる。
そして得られた2つの埋め込み特徴はconcatされデコーダに入力される。図のはconcatらしい(紛らわしい)。
韻律エンコーダはConv1dとGroupNormを含むBLSTMを使った構造。
韻律埋め込みはInstance Normしたり、コンテンツ埋め込みに比べ次元を非常に小さくしたりして情報を制限する。
が韻律埋め込みでがInstance Norm、が韻律エンコーダ、がCE-BNFs。
この韻律埋め込みはProsody Predictor、Adversarial Content Predictor、デコーダの3つに使われる。
Prosody Predictor は韻律埋め込みからエネルギー、ピッチを予測し、正解のエネルギーとピッチとのL1 lossをとる。は韻律関係の最終的なloss。はハイパラ。
Adversarial Content Predictorはコンテンツ埋め込みと韻律埋め込みの情報がかぶらないようにするためのもの。
図2の通りContent Predictorの前にgradient reversal layer(GRL)をおく。
GRLはバックプロパゲーション時に勾配を反転させる層。
Content Predictorは韻律埋め込みからコンテンツ埋め込みを予測するように学習をする(L1 loss)。
通常なら韻律埋め込みがContent Predictorがコンテンツ埋め込みを予測しやすくなる方向への勾配を韻律エンコーダに流すはずだが、GRLで勾配が反転するのでContent Predictorがコンテンツ埋め込みを予測できなくなるような方向へ韻律エンコーダは学習する。
これにより韻律埋め込みとコンテンツ埋め込みの情報のオーバーラップを減らせる。
一番の目的であるVCのlossは再構成loss。デコーダで生成したメルスペクトログラムと正解のメルスペクトログラムとのL1 loss。
最終的なlossは以下。