[論文メモ] Generative Pre-training for Speech with Flow Matching

arxiv.orgMetaAI internshipTTSや音声強調等のダウンストリームタスクのパフォーマンスを向上させるFlow Matching生成モデルの事前学習方法の提案wav2vecやHuBERT等のSSLモデルは特徴量抽出のための基盤モデルとしてよく利用される。 生成モデルはスピーチタ…

[論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023

arxiv.orgASRU2023VITSベースのSinging Voice Conversion(SVC)モデルの提案Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。ninhydrin.hatenablog.com 手法 アーキテクチャ全体像は図2を…

[論文メモ] VITS-Based Singing Voice Conversion Leveraging Whisper and multi-scale F0 Modeling

arxiv.orgVITSベースのSinging Voice Conversion(SVC)モデルの提案 4回目となる Voice Conversion ChallengeはSinging Voice Conversion Challenge(SVCC)となりより難しい歌声変換タスクとなって開催された。 SVCC2023についてはこちらの記事にまとめた。 ni…

[論文メモ] MATCHA-TTS: A FAST TTS ARCHITECTURE WITH CONDITIONAL FLOW MATCHING

arxiv.org github.comデモページ shivammehta25.github.io flow matchingを用いたTTS、Matcha-TTSの提案。 Matcha-TTSの名前の由来はflow matching for TTSの聞こえがmatcha teaに似てるから。茶がかぶってる... 手法 図1がMatcha-TTSのアーキテクチャ全体像…

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。 コンテンツ情報としてはASR…

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。 しかしアンサンブルすればパラメータが増加し学習時間が長くなる。 アンサンブルではなく、強力なdiscr…

[論文メモ] MIIPHER: A ROBUST SPEECH RESTORATION MODEL INTEGRATING SELF-SUPERVISED SPEECH AND TEXT REPRESENTATIONS

arxiv.orgWASPAA劣化音声をスタジオ品質にするspeech restoration (SR) の提案deep learning系の音声合成(TTSなど)の性能はASRなどと異なり、学習に利用する音声の品質と量に大きく依存する。 学習元音声が低品質だと、生成される音声も当然品質が悪くなる。…

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。 音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。 そこで音楽…

[論文メモ] SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech

arxiv.orgzero-shot multi-speaker TTSのための話者を明示的に正規化するSNAC layerの提案既存のzero-shot multi-speaker TTS (ZMS-TTS)では話者専用のエンコーダを用意してstyle transferの要領で変換することが多い。 またそのときにはFastSpeech系のfeed-…

[論文メモ] Class Adaptive Network Calibration

https://openaccess.thecvf.com/content/CVPR2023/papers/Liu_Class_Adaptive_Network_Calibration_CVPR_2023_paper.pdfCVPR2023クラス不均衡なデータを効率的に学習する手法を提案。クラスの分布が不均衡・裾が長い場合にDNNは自身過剰な予測を出すことがあ…

[論文メモ] Voice Conversion With Just Nearest Neighbors

arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。 高品質なVCを実現するためにそれほど複雑な必要は無いのでは?ということでk…

[論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023

arxiv.org歌声変換チャレンジ 概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変…

[論文メモ] CYFI-TTS: CYCLIC NORMALIZING FLOW WITH FINE-GRAINED REPRESENTATION FOR END-TO-END TEXT-TO-SPEECH

ICASSP2023 https://ieeexplore.ieee.org/document/10095323VITSの改良VITSはE2EなTTS(VCもできるけど)モデルでテキストから複数話者の発話を生成できるが、テキストが同じでも発音は人によって異なるためここに情報のギャップが発生する。それをなんとかし…

[論文メモ] ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED USING SELF-SUPERVISED SPEECH REPRESENTATION MODEL

NTT ICASSP 2023 arxiv.org自己教師あり学習(SSL)による特徴を条件としたzero-shotのtext-to-speech(TTS)の提案既存手法の多人数話者TTSでは少量データでのfine-tuningが必要で計算コストや時間がかかる。 既存のzero-shot TTSでは話者認識ベースのd-vector…

[論文メモ] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Google Research 比較的少量のラベルありデータで学習できるmulti-speaker TTSの提案arxiv.orgTTSを学習するには音声と発話のペアデータが大量に必要でペアデータはコストが高いため少量しか手に入らない。 それに対して音声のみのデータは大量にあるので、…

[論文メモ] FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION

テキストを利用しないone-shot可能なVITSベースのVoice Conversion(VC) arxiv.org github.comよくVCではコンテンツとスタイル(話者情報)を分離して再合成するという形式が多い。しかしその多くはコンテンツ情報にスタイルがリークしていたり大量のアノテーシ…

[論文メモ] Simple Open-Vocabulary Object Detection with Vision Transformers

arxiv.orgECCV2022検出するオブジェクトの指定に自然言語を使ったend-to-endなobject detectionモデルの提案既存のobject detectionの多くはスケーリングできず、検出可能なオブジェクトが固定されているクローズドボキャブラリーの問題がある。 近年ではCLI…

[論文メモ] ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Rhythm

arxiv.org時間レベルでピッチやリズムの調整ができるZero-Shot Voice Conversionの提案既存のVoice Conversion(VC)システムはピッチシフトを提供していても発話レベルのため時間レベルのピッチシフトができないのでなんとかしたいというお気持ち。 手法 目的…

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…

[論文メモ] DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion

arxiv.orgInterspeech 2022架空の話者へのzero-shot Voice Conversion 音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる(攻撃者によって音声が盗まれ音声認証等に利用される可能性等)。 こういったことを低…

[論文メモ] Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion

arxiv.org INTERSPEECH 2022間違っているかもしれないので注意。ピッチやコンテンツなどを相互情報量を最小化することによって分離させOne-shot Voice Conversionの精度を向上させる。Voice Conversion(VC)の精度向上のためには発話に含まれるピッチやコンテ…

[論文メモ] TGAVC: IMPROVING AUTOENCODER VOICE CONVERSION WITH TEXT-GUIDED AND ADVERSARIAL TRAINING

AutoencoderベースのVoice Conversionの改良arxiv.orgAutoVCはボトルネック部分の大きさを調整することで話者情報とコンテンツ情報を分離させるVoice Conversion(VC)手法で非常にシンプルで良いのだが、VAEのような制約がない分結果がそこまで良くない。 こ…

[論文メモ] Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

arxiv.org ICML2022 間違っているかもしれないので注意。巨大なデータセットに関する学習の高速化方法を提案 最近はWebで集めた巨大なデータセットで学習するモデルが増えている(GPT-3やCLIPなど)。 データセットが大きい分、学習にも一ヶ月やそれ以上の時間…

[論文メモ] Masked Autoencoders that Listen

arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。 音声データをBERT等で事前学習…

[論文メモ] DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders

arxiv.orgVQ-GANをつかったEnd-to-End(E2E)なTTSの提案既存のTTSの多くはメルスペクトログラムを介したacoustic model と vocoderによる構成だが、 1) メルスペクトログラムは位相情報が失われている 2) 実際のメルスペクトログラムで学習したvocoderにとっ…

[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

arxiv.orgInterspeech 2022マルチリンガル・複数話者のFlowベースのVoice Conversion既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

arxiv.orgスタイルベースなText-to-Speechの提案 間違っているかもしれないので注意。 Text-to-Speech(TTS)は進化してきたが未だに多くの課題もある。 近年のTTSは自己回帰ではなく直接音声を生成するので音素のアライメントをする外部ネットワークが必要に…