INTERSPEECH2022
arxiv.orgInterspeech 2022架空の話者へのzero-shot Voice Conversion 音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる(攻撃者によって音声が盗まれ音声認証等に利用される可能性等)。 こういったことを低…
arxiv.org INTERSPEECH 2022間違っているかもしれないので注意。ピッチやコンテンツなどを相互情報量を最小化することによって分離させOne-shot Voice Conversionの精度を向上させる。Voice Conversion(VC)の精度向上のためには発話に含まれるピッチやコンテ…
arxiv.orgVQ-GANをつかったEnd-to-End(E2E)なTTSの提案既存のTTSの多くはメルスペクトログラムを介したacoustic model と vocoderによる構成だが、 1) メルスペクトログラムは位相情報が失われている 2) 実際のメルスペクトログラムで学習したvocoderにとっ…
arxiv.orgInterspeech 2022マルチリンガル・複数話者のFlowベースのVoice Conversion既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整…