2022-03-01から1日間の記事一覧

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。 手法 入力音声はモノラル。 ノイジーな長さの音声はきれいな音声と背景雑音の合成…

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。 図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…