arxiv.org
NeurIPS2021
Facebook AI Research
画像インスタンスを生成時の条件として入力するノンパラメトリックなconditional GANの提案。
概要
class-conditional GANはクラスラベルを条件として受け取ることで複雑な分布にも対応したがデータセットを作成するコストがかかる。
教師なしでデータを分割しGANを学習する手法もあるがclass-conditional GANと結果を比較するとかなりし、データを比較的粗いオーバーラップなしの分割を行うため様々なオブジェクトやシーンが含まれた多様体が生成され、このデータの分散が生成結果の質を下げる。
データを細かく分割する手法もあるがデータの少ないクラスタが生まれこれも質を下げる。
本論文ではデータをオーバーラップありの多様体に分割し、各データポイント周辺の分布を学習するInstance-Conditioned GANを提案する。
手法
instance-conditional GAN(IC-GAN)について説明する。
IC-GANは複雑なデータセットを細かいオーバーラップありのクラスタに分割してモデル化する。
各クラスタはデータポイント(これをインスタンスと呼ぶ)とその周辺のデータポイント集合によって成る。
解きたい問題はデータの分布のモデル化で、を個のインスタンスの特徴ベクトルを条件とした分布の混合分布として表現する。つまり。
個のデータから成るデータセットをとする。
特徴ベクトルはパラメータを持つ関数で抽出()。は教師なし or 自己教師ありで学習。
はコサイン類似度を使ったk近傍法で決定する。図2(a)を参照。
generatorにはを暗黙的に学習させる()。
generatorはガウシアンからサンプルしたをに変換する。ただし、。
つまりgeneratorはとインスタンスの特徴ベクトルを受け取り画像を生成する。
discriminator は入力された画像がの近傍か否かを学習する。
なのでrealサンプルはの近傍のサンプル、つまりからサンプルする。
式にすると下の(1)になる。は一様サンプルと思われ。
Extension to class-conditional generation
IC-GANにクラスラベルを追加して拡張する。
関数は教師なし、自己教師あり、教師ありのいずれかで学習。
集合のサンプルはのコサイン類似度で選ばれるため集合内のサンプル同士でクラスラベルが異なる場合がある。そのため近傍で同じクラスラベルを持つサンプルがk個より少なくなることがある。
学習時は各の近傍集合からサンプルしたとそのラベルを利用する。
実験
省略
Selection of stored instances and neighborhood size
インスタンスの選択方法・選択数とその近傍の数について調査。
図4を参照。
まずはインスタンスの選択方法と選択数について。
インスタンスの選択方法はランダムとk-meansを比較。k-meansの方が優れる。
インスタンス数は1000を超えると大きな改善は見られない。
またprecisionとrecallを見た時、インスタンスが増えるとprecisionがわずかに下がる(画像の質が低下)。recallは大幅に向上(網羅的)。
次に近傍のサンプル数について。
インスタンス数が少ないときは近傍のサンプル数は多いほうがFID、recallともに良い結果。
インスタンス数が多いときは逆の傾向がある。
precisionには影響しない。
所感
実際の画像インスタンスをconditionとして、その周辺の画像を生成するというは良さそうなアイディア。
Adversarial latent AE(ALAE)に近いものを感じる。あちらはAEを同時に学習するので手間が少なそう。
IC-GANはconditionとして入力した画像との距離的に似た画像を生成するのに対して、ALAEはビジュアル的に似た画像を生成するので自由度はIC-GANのほうが高そう。ビジュアル的に似た者同士が近くなるような特徴化するを利用すれば良いはず?
ただ、IC-GANはk-meansでインスタンスやサンプルの決定をするので学習前の手間がありそう。またの学習も事前に行う必要があるのは少々面倒。