2021-11-01から1ヶ月間の記事一覧
arxiv.orgImage-to-Image(I2I)においてLow Resolution(LR)な画像とHigh Resolution(HR)な画像を利用することでLRの色やポーズを残したまま、HRの詳細な部分を転写する。 手法 概要 LRのターゲット画像を、関連するLR画像の部分空間をとする。 は小さい値にす…
arxiv.org github.com少量データでVision Transformer(ViT)を学習するときにサブタスクとしてパッチ間の距離を学習することで精度を向上させる。ViTは大量のデータセットで学習することで高いパフォーマンスを発揮するが、逆にデータセットが小さいと精度が…
arxiv.orgヒートマップフリーなkeypoint detectionを提案。すべてBounding Box(BBox)で表現。 導入 既存のヒートマップ形式のkeypoint detectionは 1) ヒートマップの解像度が大きくないと正確な予測ができないが、ヒートマップの解像度が大きいとコストが大…
arxiv.orgFAIRViTは入力画像をパッチにして入力するがBERTのように一部をマスクし、それを復元する自己教師ありの事前学習。 手法 提案するmasked autoencoder (MAE)について。 encoderとdecoderの入力は非対称。 encoderはマスクされていないパッチのみを入…
arxiv.org github.comNeurIPS2021 データが少ないときのadversarial trainingではDiscriminator(D)の過適合がGenerator(G)の学習を妨げる。 少量データでもDとGの競争をより安定させるためのAdaptive Pseudo Augmentation (APA) を提案。 手法 GはDを騙すよ…
arxiv.org画像の操作に関して、追加の専用アーキテクチャを必要とせず普通のStyleGANだけで十分なことを示した論文。図1は素のStyleGAN2にこの手法を適用した結果。 Image Manipulation with StyleGAN ここから図1で示した各操作について説明していく。 なお…
arxiv.orgWACV2022transfer learningで人間用のポーズ推定モデルを使ってキャラクター画像のポーズ推定(2D keypoint)を行う。既存手法のポーズ推定は下記の論文 http://www.cs.cornell.edu/~pramook/papers/manpu2016.pdfしかし、データセットが公開されてお…
arxiv.org github.comNeurIPS 2021 学習済みモデルを使ってGANの学習を効率化・高速化・高精度化する。 重要なのは 1) feature pyramidを使った複数のdiscriminatorによるマルチスケールからのfeedback 2) 学習済みモデルの高次特徴を有効活用するためのラン…
arxiv.orgNeurIPS2021単純にデータを学習して予測をするのではなく、学習データそのもの(全体)を使って予測をするNon-Parametric Transformers (NPTs)を提案。 手法 Non-Parametric Transformers(NPTs)について。 NPTsは予測を改善するためにデータポイント…
arxiv.org github.com NeurIPS2021AugMixをベースとして、データの多様性と難しさの両方を持ったデータ拡張フレームワークAugMaxを提案 またAugMaxだと学習が困難なのでそれを解決するDual-Batch-and-Instance Normalization(DbBIN)を提案。 概要 データセッ…