CLIP – arXiv最新論文の紹介

X-Paste

X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 18:59:59 GMT)
ゼロショットな画像認識（CLIPなど）＋テキストでの画像生成モデル（Stable Diffusion）＋Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

FLIP: Fast Language-Image Pre-trainingFLIP

Scaling Language-Image Pre-training via Masking [63.4]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 18:59:57 GMT)
学習時に画像パッチの一部をマスクすることで高速に学習ができるとの報告、CLIPより優れた結果だったのこと。
50%、75%という高いマスク比で高速に学習ができるのはそんな気はするが、性能が落ちていなさそう（一部は勝っている）なのが凄い。

CLIP also Understands Text

CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 23:35:18 GMT)
- 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
  - 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

CLIP-ViP

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:47:02 GMT)
- CLIPをビデオ対応させる（画像モデルを最小限の変更でビデオドメインに適合させる）研究。MSR-VTTなど複数のデータセットでSoTAを主張。
- リポジトリはXPretrain/CLIP-ViP at main · microsoft/XPretrain (github.com)

日本語特化CLIP

rinna社、日本語に特化した言語画像モデルCLIPを公開｜rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。

rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。

リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Face、rinna/japanese-cloob-vit-b-16 · Hugging Face。

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸（写実性、テキストとの類似性、多様性）でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている（色やサイズ、位置関係の反映がイマイチ）
- テキスト生成が弱い（画像中にテキストを入れる場合正しい出力にならないことがある）
- 複雑な画像を生成しにくい（「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある）
技術的にはCLIP による分散表現とdiffusion model（GLIDEベース）が活用されているとのこと。
サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (Tue, 8 Mar 2022 11:01:24 GMT)
最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
リポジトリはGitHub – liangcici/Probes-VLN

CLIPasso(CLIP-guided Semantically-Aware Object Sketching): 抽象度の異なるスケッチ生成

CLIPasso: Semantically-Aware Object Sketching [34.5]
本稿では,幾何学的および意味的単純化によって導かれる抽象レベルが異なるオブジェクトスケッチ手法を提案する。スケッチをB’ezier曲線の集合として定義し、CLIPに基づく知覚的損失に対して曲線のパラメータを直接最適化するために微分器を使用する。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 18:35:25 GMT)
- 抽象度（≒ストローク数）の異なるスケッチを自動生成する手法の提案。スケッチデータ（画像/スケッチのペアデータ）を必要とせずCLIPを活用しているのが特徴。プロジェクトサイトにある画像が面白い。
  - CLIPassoって略称があっていない気もするが・・・
- プロジェクトサイトはCLIPasso: Semantically-Aware Object Sketching

LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

Dream Fields: テキスト表現からの3Dオブジェクト生成

Zero-Shot Text-Guided Object Generation with Dream Fields [111.1]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Dec 2021 17:53:55 GMT)
- テキストから3次元オブジェクト生成するモデルの提案。論文の通りNeRF(Neural Radiance Fields) とCLIPをつかってできそうな気はするものの、プロジェクトサイトにある結果を見ると非常に面白い。
- プロジェクトサイトはZero-Shot Text-Guided Object Generation with Dream Fields (ajayj.com)

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31