INTERSPEECH2023
arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…
arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。 音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。 そこで音楽…
arxiv.org github.comINTERSPEECH2023k-NNを用いたシンプルなany-to-anyな声変換の提案最近のVoice Conversion(VC)は精度を出すために手法複雑になっており、再現や構築が難しい。 高品質なVCを実現するためにそれほど複雑な必要は無いのでは?ということでk…