コンテンツへスキップ
- Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文 参考訳(メタデータ) (Tue, 7 Dec 2021 17:47:50 GMT)- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
- FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 8 Dec 2021 18:59:16 GMT)- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。
- Text2Mesh: Text-Driven Neural Stylization for Meshes [18.4]
筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。 ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。 スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 6 Dec 2021 18:23:29 GMT)
- PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (Thu, 25 Nov 2021 10:01:05 GMT)- パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
- Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。
- Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 [46.6]
Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。 参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。 データセットには世界最大のロシア語手書きデータセットを含む。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 03:46:52 GMT)- C2C(Code2code Translation)、HTR(Handwritten Text Recognition), zsOD(Zero-shot Object Detection) , VQA(Visual Question Answering)に対して有効なマルチモーダルなアーキテクチャを作れるか?のコンペティション。データセットが複数用意されており、そのデータも重要。
- Florence: A New Foundation Model for Computer Vision [97.3]
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 18:59:55 GMT)- 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
- Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
- Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
- Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
- FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
- A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。
- UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (Fri, 19 Nov 2021 03:23:10 GMT)- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。
- LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文 参考訳(メタデータ) (Mon, 15 Nov 2021 18:53:48 GMT)- 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
- 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。
- Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (Wed, 10 Nov 2021 16:04:49 GMT)- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。
- The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。 非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。 次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 5 Nov 2021 17:58:37 GMT)- 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。