[論文メモ] Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

arxiv.orgHiFi-GANにおいて話速を操作可能にした既存の話速変更手法はDNNベースのモデルに適用しにくい。WaveNetについては話速変更の手法が提案されているが生成が遅い。高速で高精度なHiFI-GANについて話速変更をしたいというお気持ち。手法ネットワー…

2022-04-22

[論文メモ] TIME DOMAIN ADVERSARIAL VOICE CONVERSION FOR ADD 2022

論文メモ ICASSP2022 voice conversion

arxiv.orgICASSP 2022ADD2022のDeepFake検出のタスク用のVoice Conversionモデルを作成しトップになった Audio Deep Synthesis Detection Challenge (ADD 2022)というのが行われた。近年のVoice Conversion(VC)やText-to-Speech(TTS)の発展により声のなりす…

2022-04-20

[論文メモ] DeiT III: Revenge of the ViT

論文メモ ViT ResNet augmentation

arxiv.orgMeta AI ただの教師あり学習だけ(自己教師あり学習なし)でVision Transformerのパフォーマンスを向上させた。 Vision Transformer(ViT)はconvolutionのような帰納バイアスが無い分能力は高いが学習しパフォーマンスを出すのが難しく、事前学習とし…

2022-04-18

[論文メモ] Simple Baselines for Image Restoration

論文メモ Image debluring Image denoising

arxiv.org画像修復タスクで非線形の活性化関数なしのシンプルなSOTAモデルを提案。既存のSOTA手法は複雑だが、このモデルの複雑さをinter-blockとintra-blockに分けて考えてみる。inter-blocはアーキテクチャ自体についてで、図2のようにマルチスケールやマ…

2022-04-13

[論文メモ] DaViT: Dual Attention Vision Transformers

論文メモ ViT

arxiv.org空間方向だけでなくチャンネル方向のself-attentionも導入することでglobal contextを扱えるようにした。 Vision Transformer(ViT)は画像をオーバーラップなしのパッチに切り出して、それをシーケンスとみなしてself-attention(SA)を行うが計算コス…

2022-04-12

[論文メモ] PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

論文メモ StyleGAN2 pixel shuffler 画像生成

arxiv.orgPixel Shufflerを使ったピクセルレベルの画像生成既存手法にCIPSというのがあり、これはピクセル座標と潜在変数から画像を生成するというもの。ピクセルは独立で、空間方向でのconvolutionはなく、基本ピクセル独立のMLP(Network In Networkみたい…

2022-04-11

[論文メモ] MixFormer: Mixing Features across Windows and Dimensions

論文メモ CVPR2022 ViT

arxiv.orgCVPR2022 Oralwindow baseのattentionとdepth-wise convで双方向インタラクションすることで計算量を抑えつつlocal globalの情報を扱えるようにした。 Vision Transformer(ViT)の一つの成功例としてSwin Transformerがある。 Swin Transformerはオ…

2022-04-07

[論文メモ] MaxViT: Multi-Axis Vision Transformer

論文メモ ViT Attention

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…

2022-04-05

[論文メモ] Fine-tuning Image Transformers using Learnable Memory

論文メモ CVPR2022 Attention ViT Transformer fine-tuning

arxiv.org CVPR 2022 GoogleVision Transformer(ViT)の入力トークンに学習可能なメモリトークンを追加することで新規タスクにスケーラブルなfine tuning方法を提案。ViTは大量のデータで学習することで高い精度を得られる。そしてそれをfine tuningすること…

2022-04-01

[論文メモ] DISENTANGLING CONTENT AND FINE-GRAINED PROSODY INFORMATION VIA HYBRID ASR BOTTLENECK FEATURES FOR VOICE CONVERSION