2023-10-01から1ヶ月間の記事一覧

[論文メモ] Generative Pre-training for Speech with Flow Matching

arxiv.orgMetaAI internshipTTSや音声強調等のダウンストリームタスクのパフォーマンスを向上させるFlow Matching生成モデルの事前学習方法の提案wav2vecやHuBERT等のSSLモデルは特徴量抽出のための基盤モデルとしてよく利用される。 生成モデルはスピーチタ…

[論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023

arxiv.orgASRU2023VITSベースのSinging Voice Conversion(SVC)モデルの提案Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。ninhydrin.hatenablog.com 手法 アーキテクチャ全体像は図2を…

[論文メモ] VITS-Based Singing Voice Conversion Leveraging Whisper and multi-scale F0 Modeling

arxiv.orgVITSベースのSinging Voice Conversion(SVC)モデルの提案 4回目となる Voice Conversion ChallengeはSinging Voice Conversion Challenge(SVCC)となりより難しい歌声変換タスクとなって開催された。 SVCC2023についてはこちらの記事にまとめた。 ni…

[論文メモ] MATCHA-TTS: A FAST TTS ARCHITECTURE WITH CONDITIONAL FLOW MATCHING

arxiv.org github.comデモページ shivammehta25.github.io flow matchingを用いたTTS、Matcha-TTSの提案。 Matcha-TTSの名前の由来はflow matching for TTSの聞こえがmatcha teaに似てるから。茶がかぶってる... 手法 図1がMatcha-TTSのアーキテクチャ全体像…