CNN

[論文メモ] OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks

arxiv.org一枚の画像から単純な繰り返しではないUltra-high-resolution(UHR)な画像を生成するフレームワーク。 ここでのUHRな画像はここでの8K(8192 x 5456)や16K(16384 x 10912)。 SinGANとかone-shotでの画像生成はあるが解像度は1K(1024 x 1024)ぐらいが…

[論文メモ] Visual Attention Network

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

[論文メモ] Multimodal Conditional Image Synthesis with Product-of-Experts GANs

arxiv.org deepimagination.ccNVIDIAスケッチやテキストなどのマルチモーダルを条件としたProduct-of-Experts Generative Adversarial Networks (PoE-GAN) の提案。 既存のConditional GANは条件としてスケッチやテキストなど1種類の入力を条件としていた。…

[論文メモ] StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets

arxiv.org github.comStyleGAN3でImageNetのような多様な画像を生成できるようにした。SIGGRAPH 2022StyleGANはハイクオリティかつある程度の制御可能なGANだが、制御可能にできる分、構造が一定でない分散の大きいデータセットの学習には適さない。提案する…

[論文メモ] VARIATIONAL NEURAL CELLULAR AUTOMATA

arxiv.org github.com ICLR2022セル・オートマトンを使った生成モデルVariational Neural Cellular Automataを提案 導入 人や木、微生物など多様な生物は細胞の成長と分化により生成される。 セル・オートマトン(CA)はここから着想を得たモデルでセルの状態…

[論文メモ] SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches

arxiv.orgマスクを使用しない線画による画像操作を提案。skech-basedな手法による画像操作系は補完する部分のマスクとターゲットとなる線画を入力とするが、マスクと線画の2つを書くユーザーの手間、マスクからうまく線画を書くユーザーの能力、マスクする…

Image-to-Image Translation with Low Resolution Conditioning

arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。 手法 概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。 は小さい値にす…

[論文読み] Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation

arxiv.orgヒートマップフリーなkeypoint detectionを提案。すべてBounding Box(BBox)で表現。 導入 既存のヒートマップ形式のkeypoint detectionは 1) ヒートマップの解像度が大きくないと正確な予測ができないが、ヒートマップの解像度が大きいとコストが大…

[論文メモ] StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN

arxiv.org画像の操作に関して、追加の専用アーキテクチャを必要とせず普通のStyleGANだけで十分なことを示した論文。図1は素のStyleGAN2にこの手法を適用した結果。 Image Manipulation with StyleGAN ここから図1で示した各操作について説明していく。 なお…

[論文メモ] Transfer Learning for Pose Estimation of Illustrated Characters

arxiv.orgWACV2022transfer learningで人間用のポーズ推定モデルを使ってキャラクター画像のポーズ推定(2D keypoint)を行う。既存手法のポーズ推定は下記の論文 http://www.cs.cornell.edu/~pramook/papers/manpu2016.pdfしかし、データセットが公開されてお…

[論文メモ] AugMax: Adversarial Composition of Random Augmentations for Robust Training

arxiv.org github.com NeurIPS2021AugMixをベースとして、データの多様性と難しさの両方を持ったデータ拡張フレームワークAugMaxを提案 またAugMaxだと学習が困難なのでそれを解決するDual-Batch-and-Instance Normalization(DbBIN)を提案。 概要 データセッ…

[論文メモ] HRFormer: High-Resolution Transformer for Dense Prediction

arxiv.orgNeurIPS 2021 セグメンテーションやポーズ検出でも使える高解像度な特徴量をオリジナルのViTに比べ低コストで学習できるHigh-Resolution Transformer(HRT)を提案。 手法 HRNetに倣い高解像度から初めて徐々に低解像度の枝を作っていく。アーキテク…

[論文メモ] Estimating Image Depth in the Comics Domain

arxiv.orgWACV 2022 : Winter Conference on Applications of Computer VisionImage to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。 I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。 他のI2ITモデルとしてDRITやC…

[論文メモ] ConvMLP: Hierarchical Convolutional MLPs for Vision

arxiv.org 個人的なメモレベル 概要 最近流行り始めているMLP-basedなアーキテクチャは固定サイズの入力とFC層による高計算コストでobject detection等にしても使いにくい。 提案するConvMLPは軽量でステージに分割(ダウンサンプリングをする)といった畳み込…

Learning Confidence for Out-of-Distribution Detection in Neural Networks

クラス分類などで実際にニューラルネットを実際に使うとわかるが、ある入力が特定のクラスである確率が9割を超えていても間違えている事がある。 Adversarial Attackなどを考えればよく分かる。 この論文では、入力に対してクラスラベルの推定と共にその予測…

Born Again Neural Networks

[1805.04770] Born Again Neural Networks本来Knowledge distillation (KD) はモデルの圧縮に使われているが、そうではなくKDによって教師モデルより高いパフォーマンスの生徒モデルを作ることを試みたのがこの論文。 自分の記憶だとKD的なものは2014年あた…

Learn to Pay Attention

https://arxiv.org/abs/1804.02391 ICLR2018。 CNNにおけるチャンネル方向ではなく空間方向へのAttentionモデルの提案。タイトルがいいよね。 図を見たほうが早い。 決められたそれぞれの特徴量マップに対してAttentionを行う。画像のどこに注目するかという…