2022-09-21から1日間の記事一覧

[論文メモ] Hydra Attention: Efficient Attention with Many Heads

arxiv.orgCADL2022効率的なmulti-head attentionの提案 transformerのattentionはトークンの数の2乗オーダーの計算コストを必要とする。 そのためVision Transformer(ViT)などで高解像度の画像を扱うとトークン数が膨大になり、計算のほとんどをattention ma…