[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

2023-07-12

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

論文メモ INTERSPEECH2023 Pitch Estimation

arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。そこで音楽…

2023-06-30

[論文メモ] Voice Conversion With Just Nearest Neighbors

論文メモ INTERSPEECH2023 voice conversion

arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。高品質なVCを実現するためにそれほど複雑な必要は無いのでは？ということでk…

にんひどりんはんのう

日々のメモ

INTERSPEECH2023

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

[論文メモ] Voice Conversion With Just Nearest Neighbors