arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。