[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

HiFi-GANにおいて話速を操作可能にした

既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。
高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。

手法

ネットワークの途中にinterpolationを導入し伸縮する。図1に全体像を示す。

interpolationに関しては2種類を提案。
1つ目は帯域制限をしてカイザー窓を適用。HiFi-GANの中間特徴は波形の特徴とみなせるので問題はないだろうとのこと。
2つ目はメルスペクトログラムを画像(周波数軸と時間軸の2D)として扱い線形補完する。

実験・結果

既存手法では適切なデータセットで評価されていなかったらしい(低速等のデータがなかった？)。
そこで男女の各話者が高速・普通・低速の3つの速度で325個の文を読み上げた話速変更の評価用データセット、SpeedSpeech-JA-2022を作成。
これは公開している。
ast-astrec.nict.go.jp

SpeedSpeech-JA-2022の話速情報を表1に示す。