[論文メモ] Class Adaptive Network Calibration
CVPR2023
クラス不均衡なデータを効率的に学習する手法を提案。
クラスの分布が不均衡・裾が長い場合にDNNは自身過剰な予測を出すことがある。これを調整することをここではキャリブレーションと呼ぶ。
このキャリブレーション方法としては主に2種類ある。
1つ目は事後処理でキャリブレーションする方法で、検証セットを使ってlogitを調整するパラメータを設定する。低コストで効果的だが学習したモデルや検証セットの影響を受けやすい。
2つ目は学習中に同時にキャリブレーションを行う方法。メインの目的関数に加えてキャリブレーションの目的関数も追加するというもの。Label SmoothingやFocal lossなんかがこれに該当する。
これらはlogit距離を0に近づけるペナルティ項として定式化できる() nOTE
ただこれにも問題があり、
1) 各クラスの重みが同じで難しいクラスに対応できない
2) 重みの調整は適応的ではなく事前に行われるため、最適な結果が得られない
これらをなんとかするための拡張ラグランジュ乗数アルゴリズムに基づいたlabel smoothing手法、CALS-ALMを提案。
手法
をサンプル数、サンプルを、ラベルをとするとデータセットは
になる。なおクラス数は個。
パラメータを持つDNNをとするとlogitは。
softmaxで確率にすると。
クロスエントロピーlossは
となる。なお、基本的にはone-hotエンコーディングなことに注意。
既存のMargin-based Label Smoothing (MbLS)
Margin-basedな手法のlossは
の形式。なお。
CE lossに追加しマージンの制約を設けた感じ。マージンの制約は各サンプルについてのlogitの各値と最大logitとのマージンがm以下になるようにする。各クラスのlogit同士にあまり大きなマージンができないようにするという感じ?
これも非常に強力なキャリブレーションだが、すべてのサンプル・クラスに対して均一のペナルティを与えることになり最適ではない。
最適にするなら以下の式のようにをサンプル・クラスについて分ける必要がある
ただし。
最適化の観点からははラグランジュ定数で、最適なパラメータとのペア、が存在する。
当然だがImageNetのようなサンプルもクラスも巨大なデータセットや、ピクセルにクラスを割り当てるセグメンテーション問題を考えればこの最適化は現実的ではない。
そこでサンプルレベルのペナルティを緩和し、クラスレベルとする。
ただし、
それでもImageNetではで少々複雑。
Class Adaptive Network Calibration
が大きいときでも適応できるためにAugmented Lagrangian Multiplier(ALM)法 (拡張ラグランジュ乗数法)を利用する。
一般的なALM法はラグランジュ関数にペナルティ項を追加したもので、最適化の条件を満たすまで最適化とラグランジュ乗数とペナルティ項の係数を更新を繰り返すアルゴリズム。ここでは詳しくは省略。
j回目のラグランジュ関数は以下の式。
は制約。
ペナルティ項と制約を合わせたペナルティ関数をここではとし以下を満たす。
と各パラメータの関係を図にしたのが図2
ALM法は凸最適化で非凸のときは保証が無いが、非凸でも効果的なのがよく知られている。にも関わらずDNNの文脈ではほとんど検討されない。
そこでALM法をキャリブレーションに利用する。
なお。
ペナルティ項を足し合わせるのではなく平均化し、マージンで制約を正規化し、最終的なloss関数を得る。
ただ、すぐに過適合してしまうので各エポック毎検証データを使ってラグランジュ乗数を更新する。
については制約が満たされておらず、かつ制約項の値が現象していない場合に倍する。
既存研究と実際に実験した結果から、として以下のPHR関数を利用する。
実験・結果
データセットはTiny-ImageNetとImageNetとImageNetLT。
ImageNet-LTは裾が長い分布をしている。
またセグメンテーションタスクとしてPASCAL VOC2012、NLPタスクとして 20 Newsgroups。
評価指標としてよく使われているExpected Calibration Error (ECE)を採用。
はbinの数、はテストサンプル数(ここでは15に固定)、は番目のbinの予測確信度、は番目のサンプルのacuuracy、は番目のサンプルの平均確信度。
またAdaptive ECEも。
先程提案した手法をCALS-ALM、の更新を以下のヒューリスティックにしたものをCALS-HRとする。
画像分類の結果。提案手法がキャリブレーション指標では優れている。
ablationとして学習中のの変化とペナルティ関数とマージンの影響をグラフ化(図3)。
はじめは精度を上げるためにECEもも上昇するが、途中で調整が始まりECE、ともに減少し始める。
ペナルティ関数とマージンについてはPHRが最もよく、が良さそう。
セグメンテーションとNLPの結果は表2、3を参照。
ただ、この手法の制限として学習データセットと同じ分布の検証データセットが必要なこと。
検証データがi.i.dのときについては今後検証予定だそう。