論文読み

[論文メモ] Instance-Conditioned GAN

arxiv.org Facebook AI Research画像インスタンスを生成時の条件として入力するノンパラメトリックなconditional GANの提案。 概要 class-conditional GANはクラスラベルを条件として受け取ることで複雑な分布にも対応したがデータセットを作成するコストが…

[論文メモ] ConvMLP: Hierarchical Convolutional MLPs for Vision

arxiv.org 個人的なメモレベル 概要 最近流行り始めているMLP-basedなアーキテクチャは固定サイズの入力とFC層による高計算コストでobject detection等にしても使いにくい。 提案するConvMLPは軽量でステージに分割(ダウンサンプリングをする)といった畳み込…

[論文メモ] Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

arxiv.org あくまで個人的メモレベル 概要 ViTのように近年ではTransformerのCV分野への応用が活発だが、画像認識においてself-attentionが高パフォーマンスを得るための鍵なのか調査し、最近また再燃しているMLPモデルを改良したattention-freeなsMLPNetを…

[論文メモ] Panoptic SegFormer

arxiv.orgtransformerを使ってPanoptic Segmentation(PSと略す)を行った論文。テクニカルレポート。 PAはSemantic Segmentation(画像中の全てのピクセルをクラス分類. SSと略す)とInstance Segmentation(物体毎に領域分割しインスタンスを区別する. ISと略す…

[論文メモ] Fully Transformer Networks for Semantic Image Segmentation

arxiv.org図・表は論文から引用しています。 概要 NLPで使われているtransformerがsemantic segmentationでどれだけ有効なのかを調査した論文。 encoder-decoder basedなFully Transformer Networks(FTN)を提案。Transformer basedな手法としては3種類ほどあ…

[論文メモ]ConvNets vs. Transformers: Whose Visual Representations are More Transferable?

arxiv.org ICCV2021 Workshop 画像は論文より引用あくまでメモ。興味ある人は論文を読んでください。 間違い等の指摘は大歓迎です。タイトルどおりConvNetとTransformerでどちらがTransfer Learningに適しているのかを調査した論文。 概要 最近ではNLPで良い…

AdaCos: Adaptively Scaling Cosine Logits for Effectively Learning Deep Face Representationsを読んだ

詳細はこちら qiita.com以前からArcFaceというmetric learningの手法が優秀なので使っていたが、AdaCosはArcFaceのハイパーパラメータを調整してくれるということで使ってみた。そしたら想像以上に優秀だったのでAdaCosが自分のデファクトスタンダードになっ…

Learning Confidence for Out-of-Distribution Detection in Neural Networks

クラス分類などで実際にニューラルネットを実際に使うとわかるが、ある入力が特定のクラスである確率が9割を超えていても間違えている事がある。 Adversarial Attackなどを考えればよく分かる。 この論文では、入力に対してクラスラベルの推定と共にその予測…

Born Again Neural Networks

[1805.04770] Born Again Neural Networks本来Knowledge distillation (KD) はモデルの圧縮に使われているが、そうではなくKDによって教師モデルより高いパフォーマンスの生徒モデルを作ることを試みたのがこの論文。 自分の記憶だとKD的なものは2014年あた…

Learn to Pay Attention

https://arxiv.org/abs/1804.02391 ICLR2018。 CNNにおけるチャンネル方向ではなく空間方向へのAttentionモデルの提案。タイトルがいいよね。 図を見たほうが早い。 決められたそれぞれの特徴量マップに対してAttentionを行う。画像のどこに注目するかという…