voice conversion

[論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023

arxiv.orgASRU2023VITSベースのSinging Voice Conversion(SVC)モデルの提案Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。ninhydrin.hatenablog.com 手法 アーキテクチャ全体像は図2を…

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。 コンテンツ情報としてはASR…

[論文メモ] SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech

arxiv.orgzero-shot multi-speaker TTSのための話者を明示的に正規化するSNAC layerの提案既存のzero-shot multi-speaker TTS (ZMS-TTS)では話者専用のエンコーダを用意してstyle transferの要領で変換することが多い。 またそのときにはFastSpeech系のfeed-…

[論文メモ] Voice Conversion With Just Nearest Neighbors

arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。 高品質なVCを実現するためにそれほど複雑な必要は無いのでは?ということでk…

[論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023

arxiv.org歌声変換チャレンジ 概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変…

[論文メモ] FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION

テキストを利用しないone-shot可能なVITSベースのVoice Conversion(VC) arxiv.org github.comよくVCではコンテンツとスタイル(話者情報)を分離して再合成するという形式が多い。しかしその多くはコンテンツ情報にスタイルがリークしていたり大量のアノテーシ…

[論文メモ] ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Rhythm

arxiv.org時間レベルでピッチやリズムの調整ができるZero-Shot Voice Conversionの提案既存のVoice Conversion(VC)システムはピッチシフトを提供していても発話レベルのため時間レベルのピッチシフトができないのでなんとかしたいというお気持ち。 手法 目的…

[論文メモ] DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion

arxiv.orgInterspeech 2022架空の話者へのzero-shot Voice Conversion 音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる(攻撃者によって音声が盗まれ音声認証等に利用される可能性等)。 こういったことを低…

[論文メモ] Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion

arxiv.org INTERSPEECH 2022間違っているかもしれないので注意。ピッチやコンテンツなどを相互情報量を最小化することによって分離させOne-shot Voice Conversionの精度を向上させる。Voice Conversion(VC)の精度向上のためには発話に含まれるピッチやコンテ…

[論文メモ] TGAVC: IMPROVING AUTOENCODER VOICE CONVERSION WITH TEXT-GUIDED AND ADVERSARIAL TRAINING

AutoencoderベースのVoice Conversionの改良arxiv.orgAutoVCはボトルネック部分の大きさを調整することで話者情報とコンテンツ情報を分離させるVoice Conversion(VC)手法で非常にシンプルで良いのだが、VAEのような制約がない分結果がそこまで良くない。 こ…

[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

arxiv.orgInterspeech 2022マルチリンガル・複数話者のFlowベースのVoice Conversion既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整…

[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

arxiv.orgEnd-to-EndなVoice Conversion(VC)モデルの提案。既存のVCは(メル)スペクトログラム + Vocoder ベースのものが多い。スペクトログラム+Vocoderベースだと、生成されたスペクトログラムの品質やVocoderの品質に左右されるし、スペクトログラムベース…

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

arxiv.org既存のコンテンツと話者分離系のVoice Conversion(VC)の改良既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。 DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手…

TorToiSe TTSの個人的なメモ

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。 推論等も混ざっていて間違っているかもしれないのであしからず。 図は基本的に作者のWebページから(図が…

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

arxiv.org thuhcsi.github.ioICASSP 2022Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。CElossで学習した音声認識モデルの特徴…

[論文メモ] NNSPEECH: SPEAKER-GUIDED CONDITIONAL VARIATIONAL AUTOENCODER FOR ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org 間違えてるかもしれないので注意。Conditional VAE(CVAE)を使ったzero-shot text-to-speech(TTS)の提案。 既存手法だとほかfine-tuningしたりタスクで学習したSpeaker Encoderを使ったりする方法があるが、fine-tuningはデータの保存や学習コスト…

[論文メモ] Noise-robust voice conversion with domain adversarial training

arxiv.org dhqadg.github.ioAuto Encoder(AE)タイプのVoice Conversion(VC)できれいな音声とノイズの乗った音声をDomain adversarial trainingを使って同じ空間に写像することでノイズ耐性をつける。 事前知識 Domain adversarial training (DAT)について。 …

[論文メモ] TRAINING ROBUST ZERO-SHOT VOICE CONVERSION MODELS WITH SELF-SUPERVISED FEATURES

arxiv.org 教師なし学習によるVoice Conversion(VC) modelの学習 執筆当時、結果のURL。 trungd.github.ioあくまでメモ。間違っているかもしれない。 手法 をそれぞれソース・ターゲットの音声、をそれぞれソース・ターゲットの音声特徴(MFCCとか)とする。 …

[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

arxiv.org github.comAny-to-Any(A2A)のvoice conversion(VC) 概要 よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。 この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用…