ICLR2022

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。 図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…

[論文メモ] VARIATIONAL NEURAL CELLULAR AUTOMATA

arxiv.org github.com ICLR2022セル・オートマトンを使った生成モデルVariational Neural Cellular Automataを提案 導入 人や木、微生物など多様な生物は細胞の成長と分化により生成される。 セル・オートマトン(CA)はここから着想を得たモデルでセルの状態…

[論文メモ] COLLAPSE BY CONDITIONING: TRAINING CLASSCONDITIONAL GANS WITH LIMITED DATA

arxiv.org github.com少ないデータでmode collapseしないようなConditional GAN(cGAN)の学習方法の提案 問題点 少量データでGANを学習するとき、unconditionalだと安定して多様な画像が学習できるにも関わらず、conditional にするとmode collapseが起こる(…

[論文メモ] QUADTREE ATTENTION FOR VISION TRANSFORMERS

arxiv.org github.comICLR2022 Vision Transformer(ViT)のAttentionに四分木を導入して計算コストを下げた。 手法 ピラミッド構造にし、予測に影響しない(attention scoreが低い)箇所はそのまま、予測に影響する部分のみ深堀りしていくことで情報のロスの抑…