[論文メモ] When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

arxiv.org AAAI2022Vision Transformers(ViT)において、Attentionが必要なのかを調査した。 Swin TransformerのAttentionをShift operation(zero parameters)に変更したが大きな差は出なかった。ViTが出てから様々な派生(Swin Transformerなど)が出た。それ…

2022-02-08

[論文メモ] CONVOLUTIONAL XFORMERS FOR VISION

論文メモ ViT Transformer

arxiv.org github.comlinear attentionとconvolutionを組み合わせた低コスト高精度なConvolutional Xformers(CXV)を提案Transformer(Attention)は広範囲を見ることができるが、シーケンス長の2乗の計算コストがかかるし、Visionタスクでは低解像度でもかなり…

2022-02-04

[論文メモ] VARIATIONAL NEURAL CELLULAR AUTOMATA

論文メモ CNN ICLR2022

arxiv.org github.com ICLR2022セル・オートマトンを使った生成モデルVariational Neural Cellular Automataを提案導入人や木、微生物など多様な生物は細胞の成長と分化により生成される。セル・オートマトン(CA)はここから着想を得たモデルでセルの状態…

2022-02-01

[論文メモ] Noise-robust voice conversion with domain adversarial training

論文メモ voice conversion Domain adversarial training

arxiv.org dhqadg.github.ioAuto Encoder(AE)タイプのVoice Conversion(VC)できれいな音声とノイズの乗った音声をDomain adversarial trainingを使って同じ空間に写像することでノイズ耐性をつける。事前知識 Domain adversarial training (DAT)について。 …

2022-01-28

[論文メモ] Disentangling Style and Speaker Attributes for TTS Style Transfer

論文メモ TTS

arxiv.orgxiaochunan.github.iospeech style transferにおいてseen、unseenの両方を改善したAE型のEnd to End なTTSモデルの提案手法全体像は図1 ソースとなる発話を、ターゲットとなる発話をとする。これらの発話はスタイル特徴と話者特徴に分けられると…

2022-01-25

[論文メモ] Discovering Interpretable Latent Space Directions of GANs Beyond Binary Attributes

論文メモ Style Editing StyleGAN CVPR2021

openaccess.thecvf.com github.comCVPR2021学習済みStyleGANから特定の属性操作をした画像を生成する。よくある手法では属性のスコア情報やバイナリラベルを利用するが、それだとスタイルなどの抽象的な属性の変更は難しい。提案手法ではターゲット属性の画…

2022-01-21

[論文メモ] COLLAPSE BY CONDITIONING: TRAINING CLASSCONDITIONAL GANS WITH LIMITED DATA

論文メモ conditional GAN Limited Data StyleGAN2 GAN ICLR2022

arxiv.org github.com少ないデータでmode collapseしないようなConditional GAN(cGAN)の学習方法の提案問題点少量データでGANを学習するとき、unconditionalだと安定して多様な画像が学習できるにも関わらず、conditional にするとmode collapseが起こる(…

2022-01-20

[論文メモ] ViT2Hash: Unsupervised Information-Preserving Hashing

論文メモ ViT Unsupervised Learning

arxiv.org教師なしで画像を情報を保存したバイナリコードにハッシュ化する問題既存の学習済みモデルを使う教師なしのハッシュ化手法は圧縮率は高いが、意味ある情報を保持するかはしっかり調査していない。手法学習済みモデルとしてViTを使ったInformati…

2022-01-18

[論文メモ] SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps

GAN 論文メモ conditional GAN

arxiv.org carlosrodriguezpardo.es1枚のテクスチャ画像から、シームレスにタイル貼り可能な画像を生成するSeamlessGANを提案。普通に切り取って並べると不連続な部分が生まれるが、提案手法のSeamlessGANではそれがない。手法入力はtexture stack(タイル…

2022-01-14

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

論文メモ Attention ViT ICLR2022

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。手法ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…

2022-01-11

[論文メモ] AdaViT: Adaptive Tokens for Efficient Vision Transformer

ViT 論文メモ CVPR2022

arxiv.orgCVPR2022 Oral NVIDIAあくまでメモ。間違っているかも。ViTでトークンにhalting scoreを導入し予測時に各レイヤーでスコアに従い間引くことで僅かな精度低下で速度を大幅に向上させた。手法番目のレイヤーでの番目のトークンをとする。は次元数。…

2021-12-23

[論文メモ] Mask2Former for Video Instance Segmentation

論文メモ segmentation

arxiv.orggithub.comMask2Formerを動画に拡張した。著者はMask2Formerと大体同じ。手法 Mask2Formerから3つの変更。 Joint spatio-temporal masked attention Mask2Formerは次元がheightとwidthだったが、そこにtimeの次元を追加した(だけ)。なのでマスク…

2021-12-23

[論文メモ] Masked-attention Mask Transformer for Universal Image Segmentation

論文メモ Panoptic Segmentatiom segmentation Transformer Attention

arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…

2021-12-21

[論文メモ] GAN-Supervised Dense Visual Alignment

GAN StyleGAN2 論文メモ Congealing CVPR2022

arxiv.orggithub.comCVPR2022 GANを使ったDense Visual Alignmentの学習手法学習済みのGANによるサンプルとそのを生成する潜在変数を操作して得られたサンプルのペア (, )を利用した教師あり学習。このペアデータを使ってネットワークを学習する。画像の空…

2021-12-16

[論文メモ] SELF-ATTENTION DOES NOT NEED O(n^2) MEMORY

Attention 論文メモ

arxiv.orgself-attentionの計算にメモリは必要ないself-attentionはクエリ、長さのキーとバリューをそれぞれ、として次の式で表せる（ただしクエリが1つのとき）。普通に実装するとの計算・保存ためにの計算量とメモリが必要。そしてself-attentionは必要。…

2021-12-14

[論文メモ] TRAINING ROBUST ZERO-SHOT VOICE CONVERSION MODELS WITH SELF-SUPERVISED FEATURES

論文メモ voice conversion

arxiv.org 教師なし学習によるVoice Conversion(VC) modelの学習執筆当時、結果のURL。 trungd.github.ioあくまでメモ。間違っているかもしれない。手法をそれぞれソース・ターゲットの音声、をそれぞれソース・ターゲットの音声特徴(MFCCとか)とする。 …

2021-12-10

[論文メモ] Swin Transformer V2: Scaling Up Capacity and Resolution

ViT 論文メモ Transformer

arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…

2021-12-07

[論文メモ] Improved Multiscale Vision Transformers for Classification and Detection

Attention 論文メモ Transformer Object Detection ViT

arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…

2021-12-06

[論文メモ] SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches

CNN GAN 論文読み

arxiv.orgマスクを使用しない線画による画像操作を提案。skech-basedな手法による画像操作系は補完する部分のマスクとターゲットとなる線画を入力とするが、マスクと線画の２つを書くユーザーの手間、マスクからうまく線画を書くユーザーの能力、マスクする…

2021-12-03

[論文メモ] Sparse is Enough in Scaling Transformers

Attention 論文メモ

arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。そこでT…

2021-11-30

Image-to-Image Translation with Low Resolution Conditioning

論文メモ CNN conditional GAN 論文読み

arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。手法概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。は小さい値にす…

2021-11-25

[論文メモ] Efficient Training of Visual Transformers with Small Datasets

Transformer ViT 論文読み

arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…

2021-11-24

[論文読み] Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation

CNN keypoint detection 論文読み

arxiv.orgヒートマップフリーなkeypoint detectionを提案。すべてBounding Box(BBox)で表現。導入既存のヒートマップ形式のkeypoint detectionは 1) ヒートマップの解像度が大きくないと正確な予測ができないが、ヒートマップの解像度が大きいとコストが大…

2021-11-19

[論文メモ] Masked Autoencoders Are Scalable Vision Learners

Self-Supervised ViT 論文読み

arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。手法提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…

2021-11-17

[論文読み] Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data

論文読み GAN StyleGAN2 Limited Data

arxiv.org github.comNeurIPS2021 データが少ないときのadversarial trainingではDiscriminator(D)の過適合がGenerator(G)の学習を妨げる。少量データでもDとGの競争をより安定させるためのAdaptive Pseudo Augmentation (APA) を提案。手法 GはDを騙すよ…

2021-11-11

[論文メモ] StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN

CNN GAN StyleGAN2 Style Editing 論文読み

arxiv.org画像の操作に関して、追加の専用アーキテクチャを必要とせず普通のStyleGANだけで十分なことを示した論文。図1は素のStyleGAN2にこの手法を適用した結果。 Image Manipulation with StyleGAN ここから図1で示した各操作について説明していく。なお…

2021-11-09

[論文メモ] Transfer Learning for Pose Estimation of Illustrated Characters

CNN segmentation 論文読み keypoint detection

arxiv.orgWACV2022transfer learningで人間用のポーズ推定モデルを使ってキャラクター画像のポーズ推定(2D keypoint)を行う。既存手法のポーズ推定は下記の論文 http://www.cs.cornell.edu/~pramook/papers/manpu2016.pdfしかし、データセットが公開されてお…

2021-11-05

[論文メモ] Projected GANs Converge Faster

GAN 論文読み StyleGAN2

arxiv.org github.comNeurIPS 2021 学習済みモデルを使ってGANの学習を効率化・高速化・高精度化する。重要なのは 1) feature pyramidを使った複数のdiscriminatorによるマルチスケールからのfeedback 2) 学習済みモデルの高次特徴を有効活用するためのラン…

2021-11-04

[論文メモ] Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning

Attention 論文読み

arxiv.orgNeurIPS2021単純にデータを学習して予測をするのではなく、学習データそのもの(全体)を使って予測をするNon-Parametric Transformers (NPTs)を提案。手法 Non-Parametric Transformers(NPTs)について。 NPTsは予測を改善するためにデータポイント…

2021-11-01

[論文メモ] AugMax: Adversarial Composition of Random Augmentations for Robust Training

CNN 論文読み augmentation

arxiv.org github.com NeurIPS2021AugMixをベースとして、データの多様性と難しさの両方を持ったデータ拡張フレームワークAugMaxを提案またAugMaxだと学習が困難なのでそれを解決するDual-Batch-and-Instance Normalization(DbBIN)を提案。概要データセッ…

にんひどりんはんのう

日々のメモ