2023-01-01から1年間の記事一覧

[論文メモ] Generative Pre-training for Speech with Flow Matching

arxiv.orgMetaAI internshipTTSや音声強調等のダウンストリームタスクのパフォーマンスを向上させるFlow Matching生成モデルの事前学習方法の提案wav2vecやHuBERT等のSSLモデルは特徴量抽出のための基盤モデルとしてよく利用される。 生成モデルはスピーチタ…

[論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023

arxiv.orgASRU2023VITSベースのSinging Voice Conversion(SVC)モデルの提案Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。ninhydrin.hatenablog.com 手法 アーキテクチャ全体像は図2を…

[論文メモ] VITS-Based Singing Voice Conversion Leveraging Whisper and multi-scale F0 Modeling

arxiv.orgVITSベースのSinging Voice Conversion(SVC)モデルの提案 4回目となる Voice Conversion ChallengeはSinging Voice Conversion Challenge(SVCC)となりより難しい歌声変換タスクとなって開催された。 SVCC2023についてはこちらの記事にまとめた。 ni…

[論文メモ] MATCHA-TTS: A FAST TTS ARCHITECTURE WITH CONDITIONAL FLOW MATCHING

arxiv.org github.comデモページ shivammehta25.github.io flow matchingを用いたTTS、Matcha-TTSの提案。 Matcha-TTSの名前の由来はflow matching for TTSの聞こえがmatcha teaに似てるから。茶がかぶってる... 手法 図1がMatcha-TTSのアーキテクチャ全体像…

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。 コンテンツ情報としてはASR…

[論文メモ] WAVE-U-NET DISCRIMINATOR: FAST AND LIGHTWEIGHT DISCRIMINATOR FOR GENERATIVE ADVERSARIAL NETWORK-BASED SPEECH SYNTHESIS

arxiv.orgICASSP 2023Wave-U-NetをdIscriminatorとして採用する。HiFi-GANやVITSではdiscriminatorのアンサンブルを採用し高品質な音声を学習している。 しかしアンサンブルすればパラメータが増加し学習時間が長くなる。 アンサンブルではなく、強力なdiscr…

[論文メモ] MIIPHER: A ROBUST SPEECH RESTORATION MODEL INTEGRATING SELF-SUPERVISED SPEECH AND TEXT REPRESENTATIONS

arxiv.orgWASPAA劣化音声をスタジオ品質にするspeech restoration (SR) の提案deep learning系の音声合成(TTSなど)の性能はASRなどと異なり、学習に利用する音声の品質と量に大きく依存する。 学習元音声が低品質だと、生成される音声も当然品質が悪くなる。…

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。 音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。 そこで音楽…

[論文メモ] SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech

arxiv.orgzero-shot multi-speaker TTSのための話者を明示的に正規化するSNAC layerの提案既存のzero-shot multi-speaker TTS (ZMS-TTS)では話者専用のエンコーダを用意してstyle transferの要領で変換することが多い。 またそのときにはFastSpeech系のfeed-…

[論文メモ] Class Adaptive Network Calibration

https://openaccess.thecvf.com/content/CVPR2023/papers/Liu_Class_Adaptive_Network_Calibration_CVPR_2023_paper.pdfCVPR2023クラス不均衡なデータを効率的に学習する手法を提案。クラスの分布が不均衡・裾が長い場合にDNNは自身過剰な予測を出すことがあ…

[論文メモ] Voice Conversion With Just Nearest Neighbors

arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。 高品質なVCを実現するためにそれほど複雑な必要は無いのでは?ということでk…

[論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023

arxiv.org歌声変換チャレンジ 概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変…

[論文メモ] CYFI-TTS: CYCLIC NORMALIZING FLOW WITH FINE-GRAINED REPRESENTATION FOR END-TO-END TEXT-TO-SPEECH

ICASSP2023 https://ieeexplore.ieee.org/document/10095323VITSの改良VITSはE2EなTTS(VCもできるけど)モデルでテキストから複数話者の発話を生成できるが、テキストが同じでも発音は人によって異なるためここに情報のギャップが発生する。それをなんとかし…

[論文メモ] ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED USING SELF-SUPERVISED SPEECH REPRESENTATION MODEL

NTT ICASSP 2023 arxiv.org自己教師あり学習(SSL)による特徴を条件としたzero-shotのtext-to-speech(TTS)の提案既存手法の多人数話者TTSでは少量データでのfine-tuningが必要で計算コストや時間がかかる。 既存のzero-shot TTSでは話者認識ベースのd-vector…

[論文メモ] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Google Research 比較的少量のラベルありデータで学習できるmulti-speaker TTSの提案arxiv.orgTTSを学習するには音声と発話のペアデータが大量に必要でペアデータはコストが高いため少量しか手に入らない。 それに対して音声のみのデータは大量にあるので、…

[論文メモ] FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION

テキストを利用しないone-shot可能なVITSベースのVoice Conversion(VC) arxiv.org github.comよくVCではコンテンツとスタイル(話者情報)を分離して再合成するという形式が多い。しかしその多くはコンテンツ情報にスタイルがリークしていたり大量のアノテーシ…