2022-09-01から1ヶ月間の記事一覧

[論文メモ] ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Rhythm

arxiv.org時間レベルでピッチやリズムの調整ができるZero-Shot Voice Conversionの提案既存のVoice Conversion(VC)システムはピッチシフトを提供していても発話レベルのため時間レベルのピッチシフトができないのでなんとかしたいというお気持ち。 手法 目的…

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…

[論文メモ] DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion

arxiv.orgInterspeech 2022架空の話者へのzero-shot Voice Conversion 音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる(攻撃者によって音声が盗まれ音声認証等に利用される可能性等)。 こういったことを低…