[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

voice conversion 論文読み

arxiv.org github.comAny-to-Any(A2A)のvoice conversion(VC) 概要よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用…

2021-10-27

[論文メモ] BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation

style transfer 論文読み StyleGAN2

arxiv.org 概要顔のスタイル変換。 layer-swappingによるスタイル変換はきれいだがモデルが2つ必要 and ターゲットスタイルの画像がたくさん必要になる問題がある。この論文ではスタイル変換の手法としてBlendGANと、顔のアート画像データセットAAHQを提案…

2021-10-25

[論文メモ] Fine-Grained Control of Artistic Styles in Image Generation

GAN style transfer 論文読み

arxiv.orgStyle Transfer系概要 one shot系のstyle transferはスタイルというものを扱う能力が乏しく微細な部分のクオリティが低い。大量のサンプルを利用するとターゲットとなるスタイル以外の影響が大きくなる。そこで、あるサンプルでstyle transferを…

2021-10-22

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

CNN 論文読み ViT Transformer

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

2021-10-21

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

Transformer 論文読み Attention

arxiv.orgFAIR 概要オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…

2021-10-19

[論文メモ] Estimating Image Depth in the Comics Domain

CNN 論文読み depth estimation

arxiv.orgWACV 2022 : Winter Conference on Applications of Computer VisionImage to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。 I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。他のI2ITモデルとしてDRITやC…

2021-10-15

[論文メモ] VECTOR-QUANTIZED IMAGE MODELING WITH IMPROVED VQGAN

ViT 論文読み VQGAN

openreview.net あくまで個人的なメモVQGANの改善とベクトル量子化を使った画像生成モデル・画像分類モデルの改善。VQVAEはCNNベースのAE、VQGANはそこにadversarial lossを導入した。これらはCNNのauto encoder(AE)の学習(ステージ1)とencodeしたlatent va…

2021-10-08

[論文メモ] Patches Are All You Need?

論文読み MLP

openreview.net2021/10/8時点でUnder review as a conference paper at ICLR 2022 概要画像タスクでViTが高い性能を発揮しているが、それは本当にTransformerのアーキテクチャの恩恵なのか、それともパッチに分割するという画像タスクに適した帰納バイアス…