[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

arxiv.org
github.com

Any-to-Any(A2A)のvoice conversion(VC)

概要

よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。
この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用することでVCを実現する。

手法

PSDR

PSDRはF0と倍音をスケーリングしつつdurationを保存する(ピッチシフト)。直感的に音声の話者のみを変える。
f:id:Ninhydrin:20211027094916p:plain
 sは移動する半音の数。
これを使って擬似的なパラレルコーパスを作成する。
PSDRが対象の音声のコンテンツに与える影響を調べるためにWav2Vecベースの自動音声認識を使って単語誤り率を測定した結果が表1。
ピッチシフトが-6~4ぐらいなら許容範囲(ホンマか?)。

f:id:Ninhydrin:20211028090333p:plain

SingleVC

A2OのVC。
話者 Xのある音声 i X_i、PSDR処理した音声を  \hat{X^s_i} として X_i \rightarrow \hat{X^s_i}  \rightarrow \hat{X}_iで自己教師あり学習する。
つまりPSDR処理した音声を元の音声に戻す。
アーキテクチャは図1参照。
f:id:Ninhydrin:20211027095504p:plain

PSDRを \mathcal{F}、encoderを E_v、decoderを D_vとして再構成lossを最小化する。多分式4の  \hat{X^s_i}   \hat{X_i} の間違い。
f:id:Ninhydrin:20211027095621p:plain

VCTKコーパスのp249(女性で22.5分)を選択。男性と比べ女性の方が周期パターンが安定しているらしい。

MediumVC

SingleVCにO2A VCを組み合わせたA2AのVC。
アーキテクチャは図2参照。
f:id:Ninhydrin:20211027100138p:plain

話者encoderを E_s、話者Yで学習したSingleVCを V_Y、コンテンツのencoder、decoderをそれぞれ E_c, Dとする。
SingleVC同様に再構成lossを最小化する。
f:id:Ninhydrin:20211027100341p:plain

結果

デモがあるのでそちらを参照。
brightgu.github.io

所感

5ページなので察し。
A2O -> O2AでA2Aを構築するのでちょっと無駄を感じる。またOneを誰にするかが性能に大きく影響しそう。
HiFi-GANがボコーダーとしてデファクトスタンダードを確立しつつある。まあ実際使ってみると結果が良いので。
余裕があったら実験予定。