にんひどりんはんのう

日々のメモ

HiFi-GAN

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

論文メモ ICASSP2023 Speech Synthesis VITS HiFi-GAN

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。しかしアンサンブルすればパラメータが増加し学習時間が長くなる。アンサンブルではなく、強力なdiscr…

[論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023

論文メモ voice conversion singing voice conversion HiFi-GAN VITS SVCC2023

arxiv.org歌声変換チャレンジ概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変…

[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

論文メモ Speech Synthesis HiFi-GAN

arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。手法ネットワー…