Speech Synthesis

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。 しかしアンサンブルすればパラメータが増加し学習時間が長くなる。 アンサンブルではなく、強力なdiscr…

[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。 高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。 手法 ネットワー…