HiFi-GAN
arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。 しかしアンサンブルすればパラメータが増加し学習時間が長くなる。 アンサンブルではなく、強力なdiscr…
arxiv.org歌声変換チャレンジ 概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変…
arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。 高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。 手法 ネットワー…