2022-01-01から1年間の記事一覧

[論文メモ] Simple Open-Vocabulary Object Detection with Vision Transformers

arxiv.orgECCV2022検出するオブジェクトの指定に自然言語を使ったend-to-endなobject detectionモデルの提案既存のobject detectionの多くはスケーリングできず、検出可能なオブジェクトが固定されているクローズドボキャブラリーの問題がある。 近年ではCLI…

[論文メモ] ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Rhythm

arxiv.org時間レベルでピッチやリズムの調整ができるZero-Shot Voice Conversionの提案既存のVoice Conversion(VC)システムはピッチシフトを提供していても発話レベルのため時間レベルのピッチシフトができないのでなんとかしたいというお気持ち。 手法 目的…

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…

[論文メモ] DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion

arxiv.orgInterspeech 2022架空の話者へのzero-shot Voice Conversion 音声を使ったサービスというのが増えてくると、音声のセキュリティやプライバシーの問題が出てくる(攻撃者によって音声が盗まれ音声認証等に利用される可能性等)。 こういったことを低…

[論文メモ] Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion

arxiv.org INTERSPEECH 2022間違っているかもしれないので注意。ピッチやコンテンツなどを相互情報量を最小化することによって分離させOne-shot Voice Conversionの精度を向上させる。Voice Conversion(VC)の精度向上のためには発話に含まれるピッチやコンテ…

[論文メモ] TGAVC: IMPROVING AUTOENCODER VOICE CONVERSION WITH TEXT-GUIDED AND ADVERSARIAL TRAINING

AutoencoderベースのVoice Conversionの改良arxiv.orgAutoVCはボトルネック部分の大きさを調整することで話者情報とコンテンツ情報を分離させるVoice Conversion(VC)手法で非常にシンプルで良いのだが、VAEのような制約がない分結果がそこまで良くない。 こ…

[論文メモ] Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

arxiv.org ICML2022 間違っているかもしれないので注意。巨大なデータセットに関する学習の高速化方法を提案 最近はWebで集めた巨大なデータセットで学習するモデルが増えている(GPT-3やCLIPなど)。 データセットが大きい分、学習にも一ヶ月やそれ以上の時間…

[論文メモ] Masked Autoencoders that Listen

arxiv.org FAIRのtechnical reportMasked Autoencoderを音声(スペクトログラム)に適用したTransformerベースな音声タスク用の手法が提案されているがImageNetでの事前学習が行われていて、言うまでもなくこれは適切ではない。 音声データをBERT等で事前学習…

[論文メモ] DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders

arxiv.orgVQ-GANをつかったEnd-to-End(E2E)なTTSの提案既存のTTSの多くはメルスペクトログラムを介したacoustic model と vocoderによる構成だが、 1) メルスペクトログラムは位相情報が失われている 2) 実際のメルスペクトログラムで学習したvocoderにとっ…

[論文メモ] GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion

arxiv.orgInterspeech 2022マルチリンガル・複数話者のFlowベースのVoice Conversion既存手法はマルチリンガルに弱く、変換する言語が変わると自然性が落ちる。またASRベースのシステムだと言語毎にASRが必要だし、AEベースだとボトルネック部分をうまく調整…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis

arxiv.orgout-of-domainに強くしたzero-shot Text-to-Speechモデル、GenerSpeechを提案。out-of-domain(OOD)なデータに対するText-to-Speech(TTS)では現状2つの問題がある。 1) スタイルをデータ全体の平均したスタイル分布を学習するのでそこから外れたもの…

[論文メモ] StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

arxiv.orgスタイルベースなText-to-Speechの提案 間違っているかもしれないので注意。 Text-to-Speech(TTS)は進化してきたが未だに多くの課題もある。 近年のTTSは自己回帰ではなく直接音声を生成するので音素のアライメントをする外部ネットワークが必要に…

[論文メモ] Pretraining is All You Need for Image-to-Image Translation

arxiv.org学習済みの生成モデルを利用してImage-to-Image(I2I) translationを実現。I2I translationは基本的にアーキテクチャ設計が大変だったり、スクラッチからの学習が難しかったりする。 そこで既存の生成モデルを利用するI2I translationのフレームワー…

[論文メモ] End-to-End Zero-Shot Voice Style Transfer with Location-Variable Convolutions

arxiv.orgEnd-to-EndなVoice Conversion(VC)モデルの提案。既存のVCは(メル)スペクトログラム + Vocoder ベースのものが多い。スペクトログラム+Vocoderベースだと、生成されたスペクトログラムの品質やVocoderの品質に左右されるし、スペクトログラムベース…

[論文メモ] Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

arxiv.org既存のコンテンツと話者分離系のVoice Conversion(VC)の改良既存コンテンツと話者分離系手法でバックボーンにdisentangled sequential variational autoencoder (DSVAE) を使う手法がある。 DSVAEは時不変な情報と時変な情報を洗剤空間で分離する手…

[論文メモ] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

arxiv.org github.comINTERSPEECH 2021高速・高品質なVocoder、UnivNetを提案多くのVocoderは帯域制限したメルスペクトログラムから音声波形を生成する。 しかし、一部のモデルでは生成結果のスペクトログラムがオーバースムージングされる問題がある。 これ…

TorToiSe TTSの個人的なメモ

github.com nonint.comとても良いと言われているTorToiSe TTSについて、作者のアーキテクチャデザイン資料とRedditの作者の発言を読んだ個人的なメモ。 推論等も混ざっていて間違っているかもしれないのであしからず。 図は基本的に作者のWebページから(図が…

[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。 高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。 手法 ネットワー…

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

[論文メモ] DeiT III: Revenge of the ViT

arxiv.orgMeta AI ただの教師あり学習だけ(自己教師あり学習なし)でVision Transformerのパフォーマンスを向上させた。 Vision Transformer(ViT)はconvolutionのような帰納バイアスが無い分能力は高いが学習しパフォーマンスを出すのが難しく、事前学習とし…

[論文メモ] Simple Baselines for Image Restoration

arxiv.org画像修復タスクで非線形の活性化関数なしのシンプルなSOTAモデルを提案。既存のSOTA手法は複雑だが、このモデルの複雑さをinter-blockとintra-blockに分けて考えてみる。inter-blocはアーキテクチャ自体についてで、図2のようにマルチスケールやマ…

[論文メモ] DaViT: Dual Attention Vision Transformers

arxiv.org空間方向だけでなくチャンネル方向のself-attentionも導入することでglobal contextを扱えるようにした。 Vision Transformer(ViT)は画像をオーバーラップなしのパッチに切り出して、それをシーケンスとみなしてself-attention(SA)を行うが計算コス…

[論文メモ] PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

arxiv.orgPixel Shufflerを使ったピクセルレベルの画像生成既存手法にCIPSというのがあり、これはピクセル座標と潜在変数から画像を生成するというもの。ピクセルは独立で、空間方向でのconvolutionはなく、基本ピクセル独立のMLP(Network In Networkみたい…

[論文メモ] MixFormer: Mixing Features across Windows and Dimensions

arxiv.orgCVPR2022 Oralwindow baseのattentionとdepth-wise convで双方向インタラクションすることで計算量を抑えつつlocal globalの情報を扱えるようにした。 Vision Transformer(ViT)の一つの成功例としてSwin Transformerがある。 Swin Transformerはオ…

[論文メモ] MaxViT: Multi-Axis Vision Transformer

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION

arxiv.org thuhcsi.github.ioICASSP 2022Cross Entropy(CE) lossとConnectionist Temporal Classification(CTC) lossそれぞれで学習した音声認識モデルの特徴量を使ったany-to-oneのVoice Conversion(VC)モデルの提案。CElossで学習した音声認識モデルの特徴…

[論文メモ] CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training

arxiv.orgAdobe Research 間違いがあるかもしれないので注意。大きな欠損のある画像の補完が出来る、cascaded modulation GAN (CM-GAN)の提案。大きな欠損を補完出来る既存手法としてLaMaやCoModGANがあるが、それでもまだ厳しい。 それはマスクされた補完箇…

[論文メモ] ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis

arxiv.orgより強い話者エンコーダを用いることで、複数話者のText-to-speech(TTS)の精度を向上させた。既存のTTSでは話者エンコーダとしてd-vectorやx-vectorといった話者分類タスクを事前に学習したモデルの中間特徴を用いるが、これらだと自然性や話者性が…