[論文メモ] Discovering Interpretable Latent Space Directions of GANs Beyond Binary Attributes
openaccess.thecvf.com
github.com
CVPR2021
学習済みStyleGANから特定の属性操作をした画像を生成する。
よくある手法では属性のスコア情報やバイナリラベルを利用するが、それだとスタイルなどの抽象的な属性の変更は難しい。
提案手法ではターゲット属性の画像データセットを用いてそれを実現する。
手法
2つのDiscriminatorと1つのClassifierがメイン。
ベースのモデルはStyleGANでMapping Network とSynthesis Network からなる。
潜在変数をを用いて中間潜在変数にし、それを入力としてが画像を生成する。
目的はこのに加える、属性のdirection を見つけること。編集後の画像は以下の式で得られる。
で属性変更を調整するパラメータ。
学習のために、ターゲットとなる属性のデータが必要(はデータ数)。なおネガティブサンプルは必要なく、ポジティブサンプル(ターゲット属性のデータ)のみ必要。
アーキテクチャ
Attribute Assessor
は入力された画像がターゲットの属性画像がどうかを判断する。
real画像としては属性のデータからのサンプル、fake画像としてが生成した画像の属性を編集した画像 を受け取る。
これによりがターゲットの属性方向になる。
Original Discriminator
だけだと元の分布から離れていく可能性があるのでそれを抑制する。
はベースとなるStyleGANを学習するときに一緒に学習したDiscriminatorでパラメータは固定する。
lossは以下。
ただし、。
Training Objectives for Direction Discovering
全体としてのlossはによるとを使ったIdentity loss とを使ったadversarial loss からなる以下の式。
なお、はスカラー関数(詳しくは不明)、はコサイン距離、はそれぞれにを入力して得られた特徴量。
実験・結果
例の如く省略。詳しくは論文参照。
9つのアニメ属性と7つの人間属性で実験。
9つのアニメ属性は、7つのキャラクター属性 (open mouth, blunt bangs, hair length, black hair, blonde hair, pink hair)と3つのスタイル(Itomugi Kun, コミック, ちびまる子ちゃん)
データ数は不明?
使用したスタイル例は図4。
所感
アイデンティティlossを入れているので、入力のアイデンティティは保たれてる感じがある(ほんまか?)。
生成結果と、生成に使った潜在変数を少し操作して得られた画像を同じクラスとみなしてクラス分類するのは、イラスト等で同じ絵柄の同じキャラクターを複数集めるのが困難な場合に役立ちそう。
Kクラスをどれくらいに設定すべきなのか、属性データはどれくらい必要なのか等が不明なのが辛い。Ablationがほしい(Ablationはlossに関して)。
確かに、バイナリ特徴で表現できないような抽象的なスタイルに関しては適していそうだが、操作したい属性のデータを集めるのは少々面倒な気がする(どれくらいの量必要なのかもわからないし)。
そしてなぜちびまる子ちゃん?