2021-12-03から1日間の記事一覧

[論文メモ] Sparse is Enough in Scaling Transformers

arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。 でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。 そこでT…