2021-10-01から1ヶ月間の記事一覧

[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

arxiv.org github.comAny-to-Any(A2A)のvoice conversion(VC) 概要 よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。 この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用…

[論文メモ] BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation

arxiv.org 概要 顔のスタイル変換。 layer-swappingによるスタイル変換はきれいだがモデルが2つ必要 and ターゲットスタイルの画像がたくさん必要になる問題がある。 この論文ではスタイル変換の手法としてBlendGANと、顔のアート画像データセットAAHQを提案…

[論文メモ] Fine-Grained Control of Artistic Styles in Image Generation

arxiv.orgStyle Transfer系 概要 one shot系のstyle transferはスタイルというものを扱う能力が乏しく微細な部分のクオリティが低い。 大量のサンプルを利用するとターゲットとなるスタイル以外の影響が大きくなる。 そこで、あるサンプルでstyle transferを…

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

arxiv.orgFAIR 概要 オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…

[論文メモ] Estimating Image Depth in the Comics Domain

arxiv.orgWACV 2022 : Winter Conference on Applications of Computer VisionImage to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。 I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。 他のI2ITモデルとしてDRITやC…

[論文メモ] VECTOR-QUANTIZED IMAGE MODELING WITH IMPROVED VQGAN

openreview.net あくまで個人的なメモVQGANの改善とベクトル量子化を使った画像生成モデル・画像分類モデルの改善。VQVAEはCNNベースのAE、VQGANはそこにadversarial lossを導入した。 これらはCNNのauto encoder(AE)の学習(ステージ1)とencodeしたlatent va…

[論文メモ] Patches Are All You Need?

openreview.net2021/10/8時点でUnder review as a conference paper at ICLR 2022 概要 画像タスクでViTが高い性能を発揮しているが、それは本当にTransformerのアーキテクチャの恩恵なのか、それともパッチに分割するという画像タスクに適した帰納バイアス…

[論文メモ] ResNet strikes back: An improved training procedure in timm

arxiv.org 少々雑なまとめ。微妙におかしいところがあるかもなので勘弁。ILSVRC2012の画像分類タスクの精度がモデルの評価としてよく使われている。 モデルの精度は以下の式と考えられる。がモデルのアーキテクチャ、が学習手続き、が測定時のノイズ(過学習…

[論文メモ] Localizing Objects with Self-Supervised Transformers and no Labels

arxiv.org自己教師あり学習でobject localizationを学習する論文 github.com 概要 自動運転とかでも重要なobject dectionは高精度を得るためには大量のラベル付きデータが必要。 教師なしデータでの学習方法もあるが精度が低い。 最近では顕著性に基づいた検…