[論文メモ] Estimating Image Depth in the Comics Domain

WACV 2022 : Winter Conference on Applications of Computer Vision

Image to Image Translation(I2IT)を用いてコミック画像の深度推定を行う。

f:id:Ninhydrin:20211015092855p:plain
I2ITとしてDUNITを利用しコミック画像と実世界の画像を相互変換を行う。
他のI2ITモデルとしてDRITやCycleGANも試したがDUNITが優れていた。

I2IT module

DUNITは入力された画像を共有のstyle spaceとcontents spaceに射影する。
コミック画像ドメインを $C \subset \mathbb{R}^{H \times W \times 3}$ 、実世界の画像ドメインを $R \subset \mathbb{R}^{H \times W \times 3}$ とする。
コミック画像 $C$ の深度推定の結果を $D_C$ 、コミック画像を実世界画像に変換したものを $R(C)$ とする。
構築したいのは $D_C=f(R(C))$ となる関数 $f$ 。つまりコミック画像を実世界画像に変換して、実世界画像として深度を推定する(多分)。

まずI2ITモデルを構築する。使用するDUMITモデル・LossはDUMITの論文を参照(著者がほとんど同じでLossもまったく同じ)。
https://openaccess.thecvf.com/content_CVPR_2020/papers/Bhattacharjee_DUNIT_Detection-Based_Unsupervised_Image-to-Image_Translation_CVPR_2020_paper.pdf

I2ITモデルは深度推定モデルとend-to-endで学習する。
DUNITはDRITとCycleGANに比べ計算コストが大きい。

Depth estimation module

深度推定のモデルは図3を参照。
実世界画像とコミック画像のドメインに対してそれぞれの一つずつモデルを用意する。
アーキテクチャとしてはまずencoderでGlobal Contextを抽出し、それをdecodeする際に各Local Contextで補強していくU-Net的なAEアーキテクチャ。
事前の準備としてZero-Shotの嘆願推定モデルMiDaSを利用する。MiDaSは屋外・屋内等ドメインに関係なく一つのモデルで解決するモデルらしい。しかもZero-Shotで。

arxiv.org

ただ直接コミック画像ドメインにMiDaSを適用してもうまく推定できない(図2)。

そこでクロスドメインな深度推定モデルが必要になる。
実世界画像->深度のモデルを使って、ある実世界画像に対して深度の擬似的なGTを作成する。
この時利用する実世界画像は屋内・屋外等多様な風景を含むものを用意する(コミックにはそういった多様な風景が多く含まれるため)。
この実世界画像を変換して得たコミック画像を疑似GTをペアにし、教師あり学習を行う。

loss関数はMiDaSのshift and scale-invariant log loss。
f:id:Ninhydrin:20211018092545p:plain
$d_i=log(y_i)-log(y^*_i)$ 、 $y$ は予測した深度、 $y^*$ は実世界画像の深度の疑似GT、 $n$ はピクセル総数で $i$ はピクセルインデックス。

次にこの２つの深度推定モデル内部の特徴の分布が同じになるように特徴レベルのadversarial lossを導入する。
f:id:Ninhydrin:20211019085024p:plain
$f_C$ と $f_R$ はそれぞれコミック画像->実世界画像と実世界画像の深度推定のencoderから取り出した特徴量、 $D_{depth}$ はDiscriminator。

全体の目的関数は式(3)になる。
f:id:Ninhydrin:20211019091752p:plain

ちょっと理解が怪しいが、一つのモデル $f$ で実世界画像->コミック画像とコミック画像->実世界画像を学習するということ？

f:id:Ninhydrin:20211019092217p:plain

Text detection module

コミック画像におけるテキスト部分や吹き出しは深度推定ができない。
U-NetとeBDtheque dataset(テキストや吹き出しがアノテーションしてある)を使って吹き出しを検出しマスクを掛ける。

所感

直接コミック画像->深度ではなくコミック画像->実世界画像->深度という推定で間違いない？
自分の中ではどちらかのドメインに絞って(直接推定するか変換して推定するか)だと勝手に考えていたのが良くなかったかも。
目的関数が２つあり、それぞれがドメインが異なるので混乱する。
また、記号についても説明がない、もしくは間違えが合って少々読みにくい論文だった。
I2Iを使ったコミック画像へのラベル付けは以前考えたことがあったが実行には移さなかった。今回のターゲットはコミック画像と言っても海外系のコミックで日本のコミックとはドメインが異なる。日本のコミックと違ってリアル寄りなのでうまく行っている気はする。日本の漫画は目が大きかったり足が細く長かったりと実世界画像に変換すると崩れそうなものが多いので単純な適用は少し難しそう。

にんひどりんはんのう

日々のメモ

[論文メモ] Estimating Image Depth in the Comics Domain

I2IT module

Depth estimation module

Text detection module

所感