2023-07-01から1ヶ月間の記事一覧

[論文メモ] MIIPHER: A ROBUST SPEECH RESTORATION MODEL INTEGRATING SELF-SUPERVISED SPEECH AND TEXT REPRESENTATIONS

arxiv.orgWASPAA劣化音声をスタジオ品質にするspeech restoration (SR) の提案deep learning系の音声合成(TTSなど)の性能はASRなどと異なり、学習に利用する音声の品質と量に大きく依存する。 学習元音声が低品質だと、生成される音声も当然品質が悪くなる。…

[論文メモ] RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music

arxiv.org INTERSPEECH 2023音楽からボーカルのピッチを推定するボーカルのピッチ推定は他の楽器の音が入っているため推定が難しい。 音源分離を利用してボーカルを抜き出してピッチ推定する方法があるが、音源分離の品質に大きく影響を受ける。 そこで音楽…

[論文メモ] SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech

arxiv.orgzero-shot multi-speaker TTSのための話者を明示的に正規化するSNAC layerの提案既存のzero-shot multi-speaker TTS (ZMS-TTS)では話者専用のエンコーダを用意してstyle transferの要領で変換することが多い。 またそのときにはFastSpeech系のfeed-…

[論文メモ] Class Adaptive Network Calibration

https://openaccess.thecvf.com/content/CVPR2023/papers/Liu_Class_Adaptive_Network_Calibration_CVPR_2023_paper.pdfCVPR2023クラス不均衡なデータを効率的に学習する手法を提案。クラスの分布が不均衡・裾が長い場合にDNNは自身過剰な予測を出すことがあ…