TTS

[論文メモ] Generative Pre-training for Speech with Flow Matching

arxiv.orgMetaAI internshipTTSや音声強調等のダウンストリームタスクのパフォーマンスを向上させるFlow Matching生成モデルの事前学習方法の提案wav2vecやHuBERT等のSSLモデルは特徴量抽出のための基盤モデルとしてよく利用される。 生成モデルはスピーチタ…

[論文メモ] MATCHA-TTS: A FAST TTS ARCHITECTURE WITH CONDITIONAL FLOW MATCHING

arxiv.org github.comデモページ shivammehta25.github.io flow matchingを用いたTTS、Matcha-TTSの提案。 Matcha-TTSの名前の由来はflow matching for TTSの聞こえがmatcha teaに似てるから。茶がかぶってる... 手法 図1がMatcha-TTSのアーキテクチャ全体像…

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

[論文メモ] SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech

arxiv.orgzero-shot multi-speaker TTSのための話者を明示的に正規化するSNAC layerの提案既存のzero-shot multi-speaker TTS (ZMS-TTS)では話者専用のエンコーダを用意してstyle transferの要領で変換することが多い。 またそのときにはFastSpeech系のfeed-…

[論文メモ] CYFI-TTS: CYCLIC NORMALIZING FLOW WITH FINE-GRAINED REPRESENTATION FOR END-TO-END TEXT-TO-SPEECH

ICASSP2023 https://ieeexplore.ieee.org/document/10095323VITSの改良VITSはE2EなTTS(VCもできるけど)モデルでテキストから複数話者の発話を生成できるが、テキストが同じでも発音は人によって異なるためここに情報のギャップが発生する。それをなんとかし…

[論文メモ] ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED USING SELF-SUPERVISED SPEECH REPRESENTATION MODEL

NTT ICASSP 2023 arxiv.org自己教師あり学習(SSL)による特徴を条件としたzero-shotのtext-to-speech(TTS)の提案既存手法の多人数話者TTSでは少量データでのfine-tuningが必要で計算コストや時間がかかる。 既存のzero-shot TTSでは話者認識ベースのd-vector…

[論文メモ] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Google Research 比較的少量のラベルありデータで学習できるmulti-speaker TTSの提案arxiv.orgTTSを学習するには音声と発話のペアデータが大量に必要でペアデータはコストが高いため少量しか手に入らない。 それに対して音声のみのデータは大量にあるので、…

[論文メモ] DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders

arxiv.orgVQ-GANをつかったEnd-to-End(E2E)なTTSの提案既存のTTSの多くはメルスペクトログラムを介したacoustic model と vocoderによる構成だが、 1) メルスペクトログラムは位相情報が失われている 2) 実際のメルスペクトログラムで学習したvocoderにとっ…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

arxiv.orgスタイルベースなText-to-Speechの提案 間違っているかもしれないので注意。 Text-to-Speech(TTS)は進化してきたが未だに多くの課題もある。 近年のTTSは自己回帰ではなく直接音声を生成するので音素のアライメントをする外部ネットワークが必要に…

TorToiSe TTSの個人的なメモ

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。 推論等も混ざっていて間違っているかもしれないのであしからず。 図は基本的に作者のWebページから(図が…

[論文メモ] ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis

arxiv.orgより強い話者エンコーダを用いることで、複数話者のText-to-speech(TTS)の精度を向上させた。既存のTTSでは話者エンコーダとしてd-vectorやx-vectorといった話者分類タスクを事前に学習したモデルの中間特徴を用いるが、これらだと自然性や話者性が…

[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org 間違えてるかもしれないので注意。Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。 既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コスト…

[論文メモ] Disentangling Style and Speaker Attributes for TTS Style Transfer

arxiv.orgxiaochunan.github.iospeech style transferにおいてseen、unseenの両方を改善したAE型のEnd to End なTTSモデルの提案 手法 全体像は図1 ソースとなる発話を、ターゲットとなる発話をとする。 これらの発話はスタイル特徴と話者特徴に分けられると…