[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

Any-to-Any(A2A)のvoice conversion(VC)

概要

よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。
この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用することでVCを実現する。

手法

PSDR

PSDRはF0と倍音をスケーリングしつつdurationを保存する(ピッチシフト)。直感的に音声の話者のみを変える。
f:id:Ninhydrin:20211027094916p:plain
$s$ は移動する半音の数。
これを使って擬似的なパラレルコーパスを作成する。
PSDRが対象の音声のコンテンツに与える影響を調べるためにWav2Vecベースの自動音声認識を使って単語誤り率を測定した結果が表1。
ピッチシフトが-6~4ぐらいなら許容範囲(ホンマか？)。

f:id:Ninhydrin:20211028090333p:plain

SingleVC

A2OのVC。
話者 $X$ のある音声 $i$ を $X_i$ 、PSDR処理した音声を $\hat{X^s_i}$ として $X_i \rightarrow \hat{X^s_i} \rightarrow \hat{X}_i$ で自己教師あり学習する。
つまりPSDR処理した音声を元の音声に戻す。
アーキテクチャは図1参照。
f:id:Ninhydrin:20211027095504p:plain