INTERSPEECH2023

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。 音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。 そこで音楽…

[論文メモ] Voice Conversion With Just Nearest Neighbors

arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。 高品質なVCを実現するためにそれほど複雑な必要は無いのでは?ということでk…