論文読み

[論文メモ] TGAVC: IMPROVING AUTOENCODER VOICE CONVERSION WITH TEXT-GUIDED AND ADVERSARIAL TRAINING

AutoencoderベースのVoice Conversionの改良arxiv.orgAutoVCはボトルネック部分の大きさを調整することで話者情報とコンテンツ情報を分離させるVoice Conversion(VC)手法で非常にシンプルで良いのだが、VAEのような制約がない分結果がそこまで良くない。 こ…

[論文メモ] SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches

arxiv.orgマスクを使用しない線画による画像操作を提案。skech-basedな手法による画像操作系は補完する部分のマスクとターゲットとなる線画を入力とするが、マスクと線画の2つを書くユーザーの手間、マスクからうまく線画を書くユーザーの能力、マスクする…

Image-to-Image Translation with Low Resolution Conditioning

arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。 手法 概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。 は小さい値にす…

[論文メモ] Efficient Training of Visual Transformers with Small Datasets

arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…

[論文読み] Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation

arxiv.orgヒートマップフリーなkeypoint detectionを提案。すべてBounding Box(BBox)で表現。 導入 既存のヒートマップ形式のkeypoint detectionは 1) ヒートマップの解像度が大きくないと正確な予測ができないが、ヒートマップの解像度が大きいとコストが大…

[論文メモ] Masked Autoencoders Are Scalable Vision Learners

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…

[論文読み] Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data

arxiv.org github.comNeurIPS2021 データが少ないときのadversarial trainingではDiscriminator(D)の過適合がGenerator(G)の学習を妨げる。 少量データでもDとGの競争をより安定させるためのAdaptive Pseudo Augmentation (APA) を提案。 手法 GはDを騙すよ…

[論文メモ] StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN

arxiv.org画像の操作に関して、追加の専用アーキテクチャを必要とせず普通のStyleGANだけで十分なことを示した論文。図1は素のStyleGAN2にこの手法を適用した結果。 Image Manipulation with StyleGAN ここから図1で示した各操作について説明していく。 なお…

[論文メモ] Transfer Learning for Pose Estimation of Illustrated Characters

arxiv.orgWACV2022transfer learningで人間用のポーズ推定モデルを使ってキャラクター画像のポーズ推定(2D keypoint)を行う。既存手法のポーズ推定は下記の論文 http://www.cs.cornell.edu/~pramook/papers/manpu2016.pdfしかし、データセットが公開されてお…

[論文メモ] Projected GANs Converge Faster

arxiv.org github.comNeurIPS 2021 学習済みモデルを使ってGANの学習を効率化・高速化・高精度化する。 重要なのは 1) feature pyramidを使った複数のdiscriminatorによるマルチスケールからのfeedback 2) 学習済みモデルの高次特徴を有効活用するためのラン…

[論文メモ] Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning

arxiv.orgNeurIPS2021単純にデータを学習して予測をするのではなく、学習データそのもの(全体)を使って予測をするNon-Parametric Transformers (NPTs)を提案。 手法 Non-Parametric Transformers(NPTs)について。 NPTsは予測を改善するためにデータポイント…

[論文メモ] AugMax: Adversarial Composition of Random Augmentations for Robust Training

arxiv.org github.com NeurIPS2021AugMixをベースとして、データの多様性と難しさの両方を持ったデータ拡張フレームワークAugMaxを提案 またAugMaxだと学習が困難なのでそれを解決するDual-Batch-and-Instance Normalization(DbBIN)を提案。 概要 データセッ…

[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

arxiv.org github.comAny-to-Any(A2A)のvoice conversion(VC) 概要 よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。 この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用…

[論文メモ] BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation

arxiv.org 概要 顔のスタイル変換。 layer-swappingによるスタイル変換はきれいだがモデルが2つ必要 and ターゲットスタイルの画像がたくさん必要になる問題がある。 この論文ではスタイル変換の手法としてBlendGANと、顔のアート画像データセットAAHQを提案…

[論文メモ] Fine-Grained Control of Artistic Styles in Image Generation

arxiv.orgStyle Transfer系 概要 one shot系のstyle transferはスタイルというものを扱う能力が乏しく微細な部分のクオリティが低い。 大量のサンプルを利用するとターゲットとなるスタイル以外の影響が大きくなる。 そこで、あるサンプルでstyle transferを…

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

arxiv.orgFAIR 概要 オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…

[論文メモ] Estimating Image Depth in the Comics Domain

arxiv.orgWACV 2022 : Winter Conference on Applications of Computer VisionImage to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。 I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。 他のI2ITモデルとしてDRITやC…

[論文メモ] VECTOR-QUANTIZED IMAGE MODELING WITH IMPROVED VQGAN

openreview.net あくまで個人的なメモVQGANの改善とベクトル量子化を使った画像生成モデル・画像分類モデルの改善。VQVAEはCNNベースのAE、VQGANはそこにadversarial lossを導入した。 これらはCNNのauto encoder(AE)の学習(ステージ1)とencodeしたlatent va…

[論文メモ] Patches Are All You Need?

openreview.net2021/10/8時点でUnder review as a conference paper at ICLR 2022 概要 画像タスクでViTが高い性能を発揮しているが、それは本当にTransformerのアーキテクチャの恩恵なのか、それともパッチに分割するという画像タスクに適した帰納バイアス…

[論文メモ] ResNet strikes back: An improved training procedure in timm

arxiv.org 少々雑なまとめ。微妙におかしいところがあるかもなので勘弁。ILSVRC2012の画像分類タスクの精度がモデルの評価としてよく使われている。 モデルの精度は以下の式と考えられる。がモデルのアーキテクチャ、が学習手続き、が測定時のノイズ(過学習…

[論文メモ] Localizing Objects with Self-Supervised Transformers and no Labels

arxiv.org自己教師あり学習でobject localizationを学習する論文 github.com 概要 自動運転とかでも重要なobject dectionは高精度を得るためには大量のラベル付きデータが必要。 教師なしデータでの学習方法もあるが精度が低い。 最近では顕著性に基づいた検…

[論文メモ] DyStyle: Dynamic Neural Network for Multi-Attribute-Conditioned Style Editing

arxiv.orgGANの生成結果を操作する系の論文。 StyleGANなどは高精細な画像の生成を可能にしたが、生成結果のコントロールが難しい。 生成結果のコントロールするためにスタイル編集ネットワーク(StyleGANのlatent codeを生成する)を作成する手法がある。 し…

[論文メモ] Instance-Conditioned GAN

arxiv.org NeurIPS2021 Facebook AI Research画像インスタンスを生成時の条件として入力するノンパラメトリックなconditional GANの提案。 概要 class-conditional GANはクラスラベルを条件として受け取ることで複雑な分布にも対応したがデータセットを作成…

[論文メモ] ConvMLP: Hierarchical Convolutional MLPs for Vision

arxiv.org 個人的なメモレベル 概要 最近流行り始めているMLP-basedなアーキテクチャは固定サイズの入力とFC層による高計算コストでobject detection等にしても使いにくい。 提案するConvMLPは軽量でステージに分割(ダウンサンプリングをする)といった畳み込…

[論文メモ] Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

arxiv.org あくまで個人的メモレベル 概要 ViTのように近年ではTransformerのCV分野への応用が活発だが、画像認識においてself-attentionが高パフォーマンスを得るための鍵なのか調査し、最近また再燃しているMLPモデルを改良したattention-freeなsMLPNetを…

[論文メモ] Panoptic SegFormer

arxiv.orgtransformerを使ってPanoptic Segmentation(PSと略す)を行った論文。テクニカルレポート。 PAはSemantic Segmentation(画像中の全てのピクセルをクラス分類. SSと略す)とInstance Segmentation(物体毎に領域分割しインスタンスを区別する. ISと略す…

[論文メモ] Fully Transformer Networks for Semantic Image Segmentation

arxiv.org図・表は論文から引用しています。 概要 NLPで使われているtransformerがsemantic segmentationでどれだけ有効なのかを調査した論文。 encoder-decoder basedなFully Transformer Networks(FTN)を提案。Transformer basedな手法としては3種類ほどあ…

[論文メモ]ConvNets vs. Transformers: Whose Visual Representations are More Transferable?

arxiv.org ICCV2021 Workshop 画像は論文より引用あくまでメモ。興味ある人は論文を読んでください。 間違い等の指摘は大歓迎です。タイトルどおりConvNetとTransformerでどちらがTransfer Learningに適しているのかを調査した論文。 概要 最近ではNLPで良い…

AdaCos: Adaptively Scaling Cosine Logits for Effectively Learning Deep Face Representationsを読んだ

詳細はこちら qiita.com以前からArcFaceというmetric learningの手法が優秀なので使っていたが、AdaCosはArcFaceのハイパーパラメータを調整してくれるということで使ってみた。そしたら想像以上に優秀だったのでAdaCosが自分のデファクトスタンダードになっ…