[論文メモ] MIIPHER: A ROBUST SPEECH RESTORATION MODEL INTEGRATING SELF-SUPERVISED SPEECH AND TEXT REPRESENTATIONS
WASPAA
劣化音声をスタジオ品質にするspeech restoration (SR) の提案
deep learning系の音声合成(TTSなど)の性能はASRなどと異なり、学習に利用する音声の品質と量に大きく依存する。
学習元音声が低品質だと、生成される音声も当然品質が悪くなる。
SRで音声の品質を向上できれば音声合成の品質も向上できる。
しかし、SRでアーティファクトなどが出てしまうと合成結果にも反映されてしまう。
そこで、そういった失敗の少ない学習で利用できる音声を生成できるロバストなモデルを目指す。
手法
提案手法名はMiipher。multiple features integrated speech restorationとのこと。
調査の結果、SRにおいて失敗を引き起こす2つ原因に焦点を当てる
1) Phoneme masking: ノイズやリバーブがかかり音声がマスクされている状態
2) Phoneme deletion: コーデックやダウンサンプリングで音素の重要な周波数帯が消えている状態
これらを解決するために2つの工夫を加える
1) SSL features domain cleaning: メルスペクトログラム入力のかわりにSSL(w2v-BERT)特徴を入力する。
2) Transcript conditioning: テキスト情報を用いて消えた音素をインペイントする
Miipherの全体像は図1。
劣化音声とテキスト情報を入力として修復した音声を出力する。音声は24kHz。
アーキテクチャとしては feature cleaner(b)と neural vocoder(c)の2つから成る。
実験結果
w2v-BERT XLを採用し、8層目の量子化前のconformer特徴を利用。
PnG-BERTはWikipediaで学習済みのものを利用。
話者埋め込みは12層のconformerベースモデルを利用。
データセットは2680時間のノイジー音声とスタジオ品質音声のペア。
ノイジー音声はノイズBGMと発話音声から合成。
またaugmentationとしてリバーブやコーデック劣化を適用。
コーデック劣化については表1を参照。
ターゲット音声は670時間の複数の国の英語音声。
実験結果が表2。ほぼほぼ元音声と同じレベルに復元できていそう。
クラウドソーシングによる高品質でない音声データをMiipherを使って高品質化しTTSモデルを作成。
結果が表3。
TTS用データセットのLJspeechレベルのTTSが作成できた。
なおMiipherを使わなかった場合はノイズにより収束しなかったそう。