[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES
Any-to-Any(A2A)のvoice conversion(VC)
概要
よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。
この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用することでVCを実現する。
手法
PSDR
PSDRはF0と倍音をスケーリングしつつdurationを保存する(ピッチシフト)。直感的に音声の話者のみを変える。
は移動する半音の数。
これを使って擬似的なパラレルコーパスを作成する。
PSDRが対象の音声のコンテンツに与える影響を調べるためにWav2Vecベースの自動音声認識を使って単語誤り率を測定した結果が表1。
ピッチシフトが-6~4ぐらいなら許容範囲(ホンマか?)。
SingleVC
A2OのVC。
話者のある音声を、PSDR処理した音声をとしてで自己教師あり学習する。
つまりPSDR処理した音声を元の音声に戻す。
アーキテクチャは図1参照。
PSDRを、encoderを、decoderをとして再構成lossを最小化する。多分式4のはの間違い。
VCTKコーパスのp249(女性で22.5分)を選択。男性と比べ女性の方が周期パターンが安定しているらしい。
MediumVC
SingleVCにO2A VCを組み合わせたA2AのVC。
アーキテクチャは図2参照。
話者encoderを、話者Yで学習したSingleVCを、コンテンツのencoder、decoderをそれぞれとする。
SingleVC同様に再構成lossを最小化する。
結果
デモがあるのでそちらを参照。
brightgu.github.io
所感
5ページなので察し。
A2O -> O2AでA2Aを構築するのでちょっと無駄を感じる。またOneを誰にするかが性能に大きく影響しそう。
HiFi-GANがボコーダーとしてデファクトスタンダードを確立しつつある。まあ実際使ってみると結果が良いので。
余裕があったら実験予定。