2022-07-01から1ヶ月間の記事一覧

[論文メモ] Masked Autoencoders that Listen

arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。 音声データをBERT等で事前学習…

[論文メモ] DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders

arxiv.orgVQ-GANをつかったEnd-to-End(E2E)なTTSの提案既存のTTSの多くはメルスペクトログラムを介したacoustic model と vocoderによる構成だが、 1) メルスペクトログラムは位相情報が失われている 2) 実際のメルスペクトログラムで学習したvocoderにとっ…

[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

arxiv.orgInterspeech 2022マルチリンガル・複数話者のFlowベースのVoice Conversion既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…