[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION
ICASSP 2022
波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。
masked self-attentionが重要らしい。
手法
入力音声はモノラル。
ノイジーな長さの音声はきれいな音声と背景雑音の合成とする()。
目的はきれいな音声を取り出す関数を学習すること()。
なお時間に対応する出力は以前の音声から予測する。
アーキテクチャは図1の通り。
Convolutionを使ったUNetでボトルネック部分をmasked self-attentionにしている。ボトルネック部分だけなら計算コストも抑えられそう。
lossはきれいな音声との lossと複数解像度のSTFT loss。
スペクトラムを考える(はhop size)。
複数解像度のSTFT lossは下記。
目的関数はとなるがまだ問題がある。
full-bandのM-STFT lossは無音領域に低周波ノイズが発生することがある。 lossだけだと無音部分はきれいだが、高周波帯がM-STFTに比べ良くない。
そこで16kHzなら4~8kHzといったの半分の部分のみを取り出したを使ったに変更する。
最終的な目的関数はとなる。