論文読み
クラス分類などで実際にニューラルネットを実際に使うとわかるが、ある入力が特定のクラスである確率が9割を超えていても間違えている事がある。 Adversarial Attackなどを考えればよく分かる。 この論文では、入力に対してクラスラベルの推定と共にその予測…
[1805.04770] Born Again Neural Networks本来Knowledge distillation (KD) はモデルの圧縮に使われているが、そうではなくKDによって教師モデルより高いパフォーマンスの生徒モデルを作ることを試みたのがこの論文。 自分の記憶だとKD的なものは2014年あた…
https://arxiv.org/abs/1804.02391 ICLR2018。 CNNにおけるチャンネル方向ではなく空間方向へのAttentionモデルの提案。タイトルがいいよね。 図を見たほうが早い。 決められたそれぞれの特徴量マップに対してAttentionを行う。画像のどこに注目するかという…