2022-04-07から1日間の記事一覧

[論文メモ] MaxViT: Multi-Axis Vision Transformer

arxiv.orgGoogle Research入力画像サイズにスケーラブルなVision Transformer(ViT)の提案ViTはモデルの能力が高く過学習しやすい。それを抑えるため大量の学習データを必要とした。 Swin Transformerはwindow-baseにしてうまく制御したが、window-baseにした…