マルチモーダル – ページ 17 – arXiv最新論文の紹介

MuMuQA(Multimedia Multi-Hop news Question Answering)

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ）参考訳（全文） (Mon, 20 Dec 2021 18:23:30 GMT)
- クロスメディア（画像、キャプション、ニュース本文）、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用（Silver Training Set）のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

ViT-BERT: 言語と画像の統一的基礎モデル

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文参考訳（メタデータ） (Tue, 14 Dec 2021 00:20:55 GMT)
- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Dec 2021 13:21:26 GMT)
- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer

GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文参考訳（メタデータ） (Tue, 7 Dec 2021 17:47:50 GMT)
- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
  - ただ、COCOはFlorence-CoSwin-Hの方が上に見える
- リポジトリはGitHub – microsoft/GLIP: Grounded Language-Image Pre-training

FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Dec 2021 18:59:16 GMT)
- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

Text2Mesh: テキストからの3Dメッシュの生成

Text2Mesh: Text-Driven Neural Stylization for Meshes [18.4]
筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
論文参考訳（メタデータ）参考訳（全文） (Mon, 6 Dec 2021 18:23:29 GMT)
- テキスト入力に対してその3Dメッシュを生成する研究。プロジェクトサイトの画像（動画）が分かりやすく、面白い。
- プロジェクトサイトはText2Mesh Text-Driven Neural Stylization for Meshes | Oscar Michel1, Roi Bar-On1,2, Richard Liu*1, Sagie Benaim2, Rana Hanocka1 (threedle.github.io)

PolyViT: 複数種類のデータを一元的に扱うTransformer

PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.1]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。 1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。共同学習はシンプルで実践的であることを示す。
論文参考訳（メタデータ） (Thu, 25 Nov 2021 10:01:05 GMT)
- パラメータの多くを共有しつつ複数のモダリティを扱いえるアーキテクチャの提案。9つのimage-classiﬁcation, video-classiﬁcation, audio-classiﬁcationを同時に解決可能、3つのビデオと2つのオーディオデータセットでSoTAとのこと。前の投稿とも関連する報告。
  - Transfomerの強力さがよくわかると同時にモダリティ間に何らかの関連があるのだろうか。。

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 [46.6]
Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。データセットには世界最大のロシア語手書きデータセットを含む。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 03:46:52 GMT)
- C2C(Code2code Translation)、HTR(Handwritten Text Recognition), zsOD(Zero-shot Object Detection) , VQA(Visual Question Answering)に対して有効なマルチモーダルなアーキテクチャを作れるか？のコンペティション。データセットが複数用意されており、そのデータも重要。
- リポジトリはfusion_brain_aij2021/README_EN.md at main · sberbank-ai/fusion_brain_aij2021 · GitHub、ベースラインとなるサーベイも非常に参考になる。fusion_brain_aij2021/Papers on multitask & multimodal models_en.md at main · sberbank-ai/fusion_brain_aij2021 · GitHub

Florence: Computer Visionの基礎モデル

Florence: A New Foundation Model for Computer Vision [97.3]
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 18:59:55 GMT)
- 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは？と思う。
  - Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
  - Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
  - Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
- FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
- A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 03:23:10 GMT)
- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31