2022-03-01から1ヶ月間の記事一覧

[論文メモ] CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training

arxiv.orgAdobe Research 間違いがあるかもしれないので注意。大きな欠損のある画像の補完が出来る、cascaded modulation GAN (CM-GAN)の提案。大きな欠損を補完出来る既存手法としてLaMaやCoModGANがあるが、それでもまだ厳しい。 それはマスクされた補完箇…

[論文メモ] ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis

arxiv.orgより強い話者エンコーダを用いることで、複数話者のText-to-speech(TTS)の精度を向上させた。既存のTTSでは話者エンコーダとしてd-vectorやx-vectorといった話者分類タスクを事前に学習したモデルの中間特徴を用いるが、これらだと自然性や話者性が…

[論文メモ] InsetGAN for Full-Body Image Generation

arxiv.org afruehstueck.github.ioCVPR2022 Adobe ResearchGANで全身生成を可能にした。 一つのGANで全身レベルの多様性のあるドメインを学習するのは難しい。全身生成と顔生成の学習済みGANを使ってそれぞれを生成しシームレスに結合する。 手法 Full-Body …

[論文メモ] UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION

arxiv.orgVision Transformer(ViT)を使ったunpaired image-to-image translation。unpaired image-to-image translationでは既存手法としてCycleGAN、ACL-GAN、Council-GANなどがある(U-GAT-ITも)。 CycleGANはone-to-oneだが、ACL-GANとConucil-GANはone-to…

[論文メモ] Screentone-Preserved Manga Retargeting

arxiv.orgスクリーントーンの見た目を保存したまま画像をリサイズする。bilinearやbicubicでリサンプリングするとスクリーントーン部分にブラーやアーティファクトが起きる(特に縮小)。 スクリーントーンは漫画の見た目に大きく影響する。 全体の構造を保っ…

[論文メモ] LEARNING TO MERGE TOKENS IN VISION TRANSFORMERS

arxiv.orgGoogle ResearchVision Transformer(ViT)の内部でパッチを結合するPatch Margerを提案。Transformerはアーキテクチャの大きさに(ある程度)比例してパフォーマンスが向上するがその分計算コストがかかる。 パッチを減らせれば計算コストを抑えられる…

[論文メモ] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning

arxiv.orgCVPR2022サンプル間の関係をネットワーク内部で学習するフレームワークを提案。サンプル間の関係を調査するフレームワークは色々あるが、基本的に入力や出力時点で行う。 ミニバッチの中でのインタラクションはテスト時等を考えると適用は難しい(Ba…

[論文メモ] OUR-GAN: One-shot Ultra-high-Resolution Generative Adversarial Networks

arxiv.org一枚の画像から単純な繰り返しではないUltra-high-resolution(UHR)な画像を生成するフレームワーク。 ここでのUHRな画像はここでの8K(8192 x 5456)や16K(16384 x 10912)。 SinGANとかone-shotでの画像生成はあるが解像度は1K(1024 x 1024)ぐらいが…

[論文メモ] Visual Attention Network

arxiv.org github.com画像系タスクに合わせたAttentionとしてLarge Kernel Attention(LKA)を提案空間的に離れた情報同士を扱う方法として大きく2つの方法がある。 1爪がNLPで使われていたSelf-Attention(SA)を使う方法で、画像をパッチに分割しトークン列と…

[論文メモ] SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

arxiv.org cleanunet.github.ioICASSP 2022NVIDIA波形データを入出力として扱うencoder-decoderのdenoisingモデル、CleanUNetを提案。 masked self-attentionが重要らしい。 手法 入力音声はモノラル。 ノイジーな長さの音声はきれいな音声と背景雑音の合成…

[論文メモ] NOT ALL PATCHES ARE WHAT YOU NEED: EXPEDITING VISION TRANSFORMERS VIA TOKEN REORGANIZATIONS

arxiv.org github.comICLR2022Vision Transformer(ViT)においてすべてのパッチ(トークン)は必要ないので注意の少ないトークンをマージすることで精度を保ちつつ高速化する。 図1(a)のようにランダムにパッチをマスクしてもViTの予測に影響しないが、図2(b)の…