[論文メモ] Fine-Grained Control of Artistic Styles in Image Generation
Style Transfer系
概要
one shot系のstyle transferはスタイルというものを扱う能力が乏しく微細な部分のクオリティが低い。
大量のサンプルを利用するとターゲットとなるスタイル以外の影響が大きくなる。
そこで、あるサンプルでstyle transferをするにあたってそのときに重要なスタイルを大量なサンプルを使って効果的に学習するフレームワークを提案。
手法
全体図は図2参照。細かい構成について説明していく。
Style embedding
アートワークサンプルを連続的なスタイル空間に写像する。
そのためにImageNetで事前学習したVGG-19を使ってGram matrixを各サンプルごとに抽出。
は番目のレイヤーの特徴量、は番目のフィルターのの座標の活性化後の値。
得られたGram matrixをflatten and concatして特徴ベクトルを得る。ただこのままだと非常に大きい(~610,000)のでPCAで72 or 512にまで次元を削減(この大きさはデータセット毎に設定)。これをstyle vectorと呼ぶ。
埋め込んだ結果が図4。スタイルが近い画像はスタイル空間でも近い位置にあるのが確認できる。
実験結果
所感
style transferをコントロールする系。なんか見たことあるような内容(Adversarial Latent Autoencoder(ALAE)とか)。
arxiv.org
ALAEも画像を入力(condition)としてそれに似た画像を生成する系だったが、自分でやった結果かなりうまく行った(高解像度では工夫が必要だったが)。
今回の手法もラベルを使わない分、教師なしに近いフレームワークだが、その分コントロールの自由度が低く感じる。
ただ、あまり目新しさは感じられなかった。
また色々疑問も残る。Selfie2animeの埋め込みにImageNetで事前学習したモデルで良いのか?なぜ今になって初代StyleGAN?など。