2021-12-01から1ヶ月間の記事一覧
arxiv.orggithub.comMask2Formerを動画に拡張した。著者はMask2Formerと大体同じ。 手法 Mask2Formerから3つの変更。 Joint spatio-temporal masked attention Mask2Formerは次元がheightとwidthだったが、そこにtimeの次元を追加した(だけ)。 なのでマスク…
arxiv.orgpanoptic・instance・semantic segmentation用のMasked-attention Mask Transformer(Mask2Former)を提案。 手法 Mask2Formerは3つのコンポーネントから成る。 1) 特徴量を抽出するバックボーン 2) 低解像度の特徴量を高解像にするため徐々にupsampl…
arxiv.orggithub.comCVPR2022 GANを使ったDense Visual Alignmentの学習 手法 学習済みのGANによるサンプルとそのを生成する潜在変数を操作して得られたサンプルのペア (, )を利用した教師あり学習。このペアデータを使ってネットワークを学習する。画像の空…
arxiv.orgself-attentionの計算にメモリは必要ないself-attentionはクエリ、長さのキーとバリューをそれぞれ、として次の式で表せる(ただしクエリが1つのとき)。 普通に実装するとの計算・保存ためにの計算量とメモリが必要。そしてself-attentionは必要。…
arxiv.org 教師なし学習によるVoice Conversion(VC) modelの学習 執筆当時、結果のURL。 trungd.github.ioあくまでメモ。間違っているかもしれない。 手法 をそれぞれソース・ターゲットの音声、をそれぞれソース・ターゲットの音声特徴(MFCCとか)とする。 …
arxiv.orgSwin Transformerの改良。著者はSwin Transformerとだいたい同じ。 言語モデルは大量のパラメータ(530billion)で高いパフォーマンスを出しており、パラメータ数が多いと大体パフォーマンスも改善するのはわかっているが、画像系モデルに関してはせ…
arxiv.orgFAIR Technical reportクラス分類、物体検出、動画の認識のためのMultiscale Vision Transformer(MViT)の改善 MViT 高解像度・低解像度のマルチステージを持つViT。以下の論文で提案(著者はほぼ同じ)。 arxiv.orgPooling Attention(PA)が提案されて…
arxiv.orgマスクを使用しない線画による画像操作を提案。skech-basedな手法による画像操作系は補完する部分のマスクとターゲットとなる線画を入力とするが、マスクと線画の2つを書くユーザーの手間、マスクからうまく線画を書くユーザーの能力、マスクする…
arxiv.orgNeurIPS2021あくまでメモ。ちょっとわからないところがあり間違っているかもしれない。 でかいTransformerがいろんなタスクで性能を発揮しているが、学習に時間がかかりfine-tuningも時間がかかる。実際に使用するときも遅く実用的でない。 そこでT…