ICASSP2022

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

arxiv.org thuhcsi.github.ioICASSP 2022Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。CElossで学習した音声認識モデルの特徴…

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。 手法 入力音声はモノラル。 ノイジーな長さの音声はきれいな音声と背景雑音の合成…