[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

2022-04-01

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

論文メモ ICASSP2022 voice conversion

arxiv.org thuhcsi.github.ioICASSP 2022Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。CElossで学習した音声認識モデルの特徴…

2022-03-01

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

論文メモ ICASSP2022 denoising

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。手法入力音声はモノラル。ノイジーな長さの音声はきれいな音声と背景雑音の合成…

にんひどりんはんのう

日々のメモ

ICASSP2022

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION