Self-Supervised

[論文メモ] Generative Pre-training for Speech with Flow Matching

arxiv.orgMetaAI internshipTTSや音声強調等のダウンストリームタスクのパフォーマンスを向上させるFlow Matching生成モデルの事前学習方法の提案wav2vecやHuBERT等のSSLモデルは特徴量抽出のための基盤モデルとしてよく利用される。 生成モデルはスピーチタ…

[論文メモ] SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

arxiv.orgINTERSPEECH2023self-supervised learning (SSL)モデルを使ったTTSの性能向上手法の提案TTSモデルの学習には大量のラベル付きデータが必要なためコストが高い。 近年出てきたwav2vec 2.0やHuBERTなどのSSLモデルは音声認識や話者分類等の下流タスク…

[論文メモ] ACE-VC: ADAPTIVE AND CONTROLLABLE VOICE CONVERSION USING EXPLICITLY DISENTANGLED SELF-SUPERVISED SPEECH REPRESENTATIONS

arxiv.orgICASSP 202310秒のターゲット音声で変換ができるzero-shot any-to-anyな声質変換モデルの提案一般的なvoice conversion(VC)ではコンテンツ(音素やテキスト)と話者を分離してターゲット話者情報で再構成スタイルが多い。 コンテンツ情報としてはASR…

[論文メモ] ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED USING SELF-SUPERVISED SPEECH REPRESENTATION MODEL

NTT ICASSP 2023 arxiv.org自己教師あり学習(SSL)による特徴を条件としたzero-shotのtext-to-speech(TTS)の提案既存手法の多人数話者TTSでは少量データでのfine-tuningが必要で計算コストや時間がかかる。 既存のzero-shot TTSでは話者認識ベースのd-vector…

[論文メモ] Masked Autoencoders that Listen

arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。 音声データをBERT等で事前学習…

[論文メモ] Masked Autoencoders Are Scalable Vision Learners

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…

[論文メモ] Localizing Objects with Self-Supervised Transformers and no Labels

arxiv.org自己教師あり学習でobject localizationを学習する論文 github.com 概要 自動運転とかでも重要なobject dectionは高精度を得るためには大量のラベル付きデータが必要。 教師なしデータでの学習方法もあるが精度が低い。 最近では顕著性に基づいた検…