[論文メモ] DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion

Interspeech 2022

架空の話者へのzero-shot Voice Conversion

音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる（攻撃者によって音声が盗まれ音声認証等に利用される可能性等）。
こういったことを低減するために、発話の中身を変えず話者情報を削除・難読化したいというお気持ち。

手法

ベースはAutoVCで、そこに疑似話者を追加する。

AutoVC

AutoVCは主に3つのモジュールからなる。
1つ目がコンテンツエンコーダ $E_c$ でメルスペクトログラムを入力としコンテンツ特徴に埋め込む。
2つ目が話者エンコーダ $E_s$ で、メルスペクトログラムを入力して話者特徴を出力するD-Vectorをベースのもの。
3つ目はデコーダ $D$ でエンコーダによるコンテンツ特徴と話者特徴を元にターゲットのメルスペクトログラムを出力する。

目的関数は以下

$X_1$ ：メルスペクトログラム
$C_1$ ： $X_1$ を $E_c$ で埋め込んだコンテンツ特徴
$\hat{X}_{a \rightarrow b}$ ：話者aの発話を話者bに変換したメルスペクトログラム
$\tilde{X}_{a \rightarrow b}$ ： $\hat{X}_{a \rightarrow b}$ をpost net でrefinementしたもの

AutoVCのパイプラインは以下の図1。

提案手法

提案手法名はDeID-VC(de-identificationのDeIDと思われ)。
一般的にVoice Conversion(VC)はコンテンツ情報 $C$ と話者情報 $S$ を分離することが重要とされる。
AutoVCでは $E_c$ の出力部分を適切なサイズのボトルネックにすることでCとSに分離させている。
だが、適切なボトルネックサイズというのはデータセットに依存するためデータセットによっては分離がうまくいかない。
その結果Cに話者情報も残り、再構成lossについてもSを利用せずCからの生成になりVCとして機能しなくなる。