[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

arxiv.org

HiFi-GANにおいて話速を操作可能にした

既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。
高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。

手法

ネットワークの途中にinterpolationを導入し伸縮する。図1に全体像を示す。

interpolationに関しては2種類を提案。
1つ目は帯域制限をしてカイザー窓を適用。HiFi-GANの中間特徴は波形の特徴とみなせるので問題はないだろうとのこと。
2つ目はメルスペクトログラムを画像(周波数軸と時間軸の2D)として扱い線形補完する。


実験・結果

既存手法では適切なデータセットで評価されていなかったらしい(低速等のデータがなかった?)。
そこで男女の各話者が高速・普通・低速の3つの速度で325個の文を読み上げた話速変更の評価用データセット、SpeedSpeech-JA-2022を作成。
これは公開している。
ast-astrec.nict.go.jp

SpeedSpeech-JA-2022の話速情報を表1に示す。

コーパスはITAコーパス

各話者の各速度の発話から15個の発話をテストに利用(計45個)。3種類の話速があるので、入力とは異なる2種速度に変換し検証。
評価指標はメルケプストラム歪み(MCD)とリアルタイムファクター(RTF)。比較対象はWSOLAという既存手法。

各interpolationをHiFi-GANの4つのブロックにそれぞれに導入して比較。
全体的に線形補完が良い。

MOS評価。

異なる話速からターゲットの話速への変換。
低速と普通の相互変換は良さそう。高速は全体に少々厳しい。

TTSでの評価。FastSpeech2を利用。既存手法(WSOLA)より良さそう。

所感

HiFi-GANの中間特徴で補完するという非常にシンプルな方法。
今までいい感じの評価データセットがなかったのでありがたい。