2021-01-01から1年間の記事一覧

[論文メモ] Mask2Former for Video Instance Segmentation

arxiv.orggithub.comMask2Formerを動画に拡張した。著者はMask2Formerと大体同じ。 手法 Mask2Formerから3つの変更。 Joint spatio-temporal masked attention Mask2Formerは次元がheightとwidthだったが、そこにtimeの次元を追加した(だけ)。 なのでマスク…

[論文メモ] Masked-attention Mask Transformer for Universal Image Segmentation

arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。 手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…

[論文メモ] GAN-Supervised Dense Visual Alignment

arxiv.orggithub.comCVPR2022 GANを使ったDense Visual Alignmentの学習 手法 学習済みのGANによるサンプルとそのを生成する潜在変数を操作して得られたサンプルのペア (, )を利用した教師あり学習。このペアデータを使ってネットワークを学習する。画像の空…

[論文メモ] SELF-ATTENTION DOES NOT NEED O(n^2) MEMORY

arxiv.orgself-attentionの計算にメモリは必要ないself-attentionはクエリ、長さのキーとバリューをそれぞれ、として次の式で表せる(ただしクエリが1つのとき)。 普通に実装するとの計算・保存ためにの計算量とメモリが必要。そしてself-attentionは必要。…

[論文メモ] TRAINING ROBUST ZERO-SHOT VOICE CONVERSION MODELS WITH SELF-SUPERVISED FEATURES

arxiv.org 教師なし学習によるVoice Conversion(VC) modelの学習 執筆当時、結果のURL。 trungd.github.ioあくまでメモ。間違っているかもしれない。 手法 をそれぞれソース・ターゲットの音声、をそれぞれソース・ターゲットの音声特徴(MFCCとか)とする。 …

[論文メモ] Swin Transformer V2: Scaling Up Capacity and Resolution

arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。 言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

[論文メモ] SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches

arxiv.orgマスクを使用しない線画による画像操作を提案。skech-basedな手法による画像操作系は補完する部分のマスクとターゲットとなる線画を入力とするが、マスクと線画の2つを書くユーザーの手間、マスクからうまく線画を書くユーザーの能力、マスクする…

[論文メモ] Sparse is Enough in Scaling Transformers

arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。 でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。 そこでT…

Image-to-Image Translation with Low Resolution Conditioning

arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。 手法 概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。 は小さい値にす…

[論文メモ] Efficient Training of Visual Transformers with Small Datasets

arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…

[論文読み] Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation

arxiv.orgヒートマップフリーなkeypoint detectionを提案。すべてBounding Box(BBox)で表現。 導入 既存のヒートマップ形式のkeypoint detectionは 1) ヒートマップの解像度が大きくないと正確な予測ができないが、ヒートマップの解像度が大きいとコストが大…

[論文メモ] Masked Autoencoders Are Scalable Vision Learners

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…

[論文読み] Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data

arxiv.org github.comNeurIPS2021 データが少ないときのadversarial trainingではDiscriminator(D)の過適合がGenerator(G)の学習を妨げる。 少量データでもDとGの競争をより安定させるためのAdaptive Pseudo Augmentation (APA) を提案。 手法 GはDを騙すよ…

[論文メモ] StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN

arxiv.org画像の操作に関して、追加の専用アーキテクチャを必要とせず普通のStyleGANだけで十分なことを示した論文。図1は素のStyleGAN2にこの手法を適用した結果。 Image Manipulation with StyleGAN ここから図1で示した各操作について説明していく。 なお…

[論文メモ] Transfer Learning for Pose Estimation of Illustrated Characters

arxiv.orgWACV2022transfer learningで人間用のポーズ推定モデルを使ってキャラクター画像のポーズ推定(2D keypoint)を行う。既存手法のポーズ推定は下記の論文 http://www.cs.cornell.edu/~pramook/papers/manpu2016.pdfしかし、データセットが公開されてお…

[論文メモ] Projected GANs Converge Faster

arxiv.org github.comNeurIPS 2021 学習済みモデルを使ってGANの学習を効率化・高速化・高精度化する。 重要なのは 1) feature pyramidを使った複数のdiscriminatorによるマルチスケールからのfeedback 2) 学習済みモデルの高次特徴を有効活用するためのラン…

[論文メモ] Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning

arxiv.orgNeurIPS2021単純にデータを学習して予測をするのではなく、学習データそのもの(全体)を使って予測をするNon-Parametric Transformers (NPTs)を提案。 手法 Non-Parametric Transformers(NPTs)について。 NPTsは予測を改善するためにデータポイント…

[論文メモ] AugMax: Adversarial Composition of Random Augmentations for Robust Training

arxiv.org github.com NeurIPS2021AugMixをベースとして、データの多様性と難しさの両方を持ったデータ拡張フレームワークAugMaxを提案 またAugMaxだと学習が困難なのでそれを解決するDual-Batch-and-Instance Normalization(DbBIN)を提案。 概要 データセッ…

[論文メモ] MEDIUMVC: ANY-TO-ANY VOICE CONVERSION USING SYNTHETIC SPECIFIC-SPEAKER SPEECHES AS INTERMEDIUM FEATURES

arxiv.org github.comAny-to-Any(A2A)のvoice conversion(VC) 概要 よくあるA2AのVCは自己教師ありの再構成で学習を行うが、これだと特徴の分離がうまくなされず未知の話者のときの精度が悪い。 この論文ではAny-to-One(A2O)とOne-to-Any(O2A)のモデルを利用…

[論文メモ] BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation

arxiv.org 概要 顔のスタイル変換。 layer-swappingによるスタイル変換はきれいだがモデルが2つ必要 and ターゲットスタイルの画像がたくさん必要になる問題がある。 この論文ではスタイル変換の手法としてBlendGANと、顔のアート画像データセットAAHQを提案…

[論文メモ] Fine-Grained Control of Artistic Styles in Image Generation

arxiv.orgStyle Transfer系 概要 one shot系のstyle transferはスタイルというものを扱う能力が乏しく微細な部分のクオリティが低い。 大量のサンプルを利用するとターゲットとなるスタイル以外の影響が大きくなる。 そこで、あるサンプルでstyle transferを…

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

[論文メモ] NORMFORMER: IMPROVED TRANSFORMER PRETRAINING WITH EXTRA NORMALIZATION

arxiv.orgFAIR 概要 オリジナルのTransformerは次のSublayer(MHAとかFeedForward)への入力の分散を小さくするためSublayerの出力 + residual connectionの後にLayerNorm(LN)している("Post-LN") 最近の研究でPost-LN Transformerは入力に近い層に比べ出力に…

[論文メモ] Estimating Image Depth in the Comics Domain

arxiv.orgWACV 2022 : Winter Conference on Applications of Computer VisionImage to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。 I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。 他のI2ITモデルとしてDRITやC…

[論文メモ] VECTOR-QUANTIZED IMAGE MODELING WITH IMPROVED VQGAN

openreview.net あくまで個人的なメモVQGANの改善とベクトル量子化を使った画像生成モデル・画像分類モデルの改善。VQVAEはCNNベースのAE、VQGANはそこにadversarial lossを導入した。 これらはCNNのauto encoder(AE)の学習(ステージ1)とencodeしたlatent va…

[論文メモ] Patches Are All You Need?

openreview.net2021/10/8時点でUnder review as a conference paper at ICLR 2022 概要 画像タスクでViTが高い性能を発揮しているが、それは本当にTransformerのアーキテクチャの恩恵なのか、それともパッチに分割するという画像タスクに適した帰納バイアス…

[論文メモ] ResNet strikes back: An improved training procedure in timm

arxiv.org 少々雑なまとめ。微妙におかしいところがあるかもなので勘弁。ILSVRC2012の画像分類タスクの精度がモデルの評価としてよく使われている。 モデルの精度は以下の式と考えられる。がモデルのアーキテクチャ、が学習手続き、が測定時のノイズ(過学習…

[論文メモ] Localizing Objects with Self-Supervised Transformers and no Labels

arxiv.org自己教師あり学習でobject localizationを学習する論文 github.com 概要 自動運転とかでも重要なobject dectionは高精度を得るためには大量のラベル付きデータが必要。 教師なしデータでの学習方法もあるが精度が低い。 最近では顕著性に基づいた検…

[論文メモ] DyStyle: Dynamic Neural Network for Multi-Attribute-Conditioned Style Editing

arxiv.orgGANの生成結果を操作する系の論文。 StyleGANなどは高精細な画像の生成を可能にしたが、生成結果のコントロールが難しい。 生成結果のコントロールするためにスタイル編集ネットワーク(StyleGANのlatent codeを生成する)を作成する手法がある。 し…