[論文メモ] Mask2Former for Video Instance Segmentation
Mask2Formerを動画に拡張した。著者はMask2Formerと大体同じ。
手法
Mask2Formerから3つの変更。
Joint spatio-temporal masked attention
Mask2Formerは次元がheightとwidthだったが、そこにtimeの次元を追加した(だけ)。
なのでマスクは以下の式(2)になる。なお。
Temporal positional encoding
positional encodingを時間方向に拡張。
で各要素は、。はnumpy-styleのbroadcasting。つまりheight、width、timeに関してユニークになる。
Joint spatio-temporal mask prediction
単純なdot productでマスクを推定する。
実験・結果
詳しくは論文参照
YouTubeVIS-2019、YouTubeVIS-2021でSOTA。
所感
Mask2Former強い。