ViT-BERT: 言語と画像の統一的基礎モデル

  • Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
    我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。 実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
    論文  参考訳(メタデータ)   (Tue, 14 Dec 2021 00:20:55 GMT)
    • 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

  • Grounded Language-Image Pre-training [107.7]
    本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
    論文  参考訳(メタデータ)   (Tue, 7 Dec 2021 17:47:50 GMT)
    • オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。

FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

  • FLAVA: A Foundational Language And Vision Alignment Model [63.2]
    最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Dec 2021 18:59:16 GMT)
    • 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

Text2Mesh: テキストからの3Dメッシュの生成

  • Text2Mesh: Text-Driven Neural Stylization for Meshes [18.4]
    筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。 ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。 スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 6 Dec 2021 18:23:29 GMT)

PolyViT: 複数種類のデータを一元的に扱うTransformer

  • PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
    我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。 共同学習はシンプルで実践的であることを示す。
    論文  参考訳(メタデータ)   (Thu, 25 Nov 2021 10:01:05 GMT)
    • パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classification, video-classification, audio-classificationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
      • Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

Florence: Computer Visionの基礎モデル

  • Florence: A New Foundation Model for Computer Vision [97.3]
    多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 18:59:55 GMT)
    • 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
      • Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
      • Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
      • Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
    • FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
    • A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

LiT-tuning(Locked-image Text tuning): 効果的なゼロショット

  • LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
    『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 18:53:48 GMT)
    • 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
    • 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。