Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning 

  • Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
    我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 09:29:16 GMT)
  • 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
  • リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX

VISA: Retrieval Augmented Generation with Visual Source Attribution

  • VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
    RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。 本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。 本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 02:17:35 GMT)
  • 回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
  • 現実的で重要なタスク。コードやデータセットなど公開予定とのこと。

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

  • All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
    ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:44:42 GMT)
  • きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
  • リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines 

JDocQA

  • JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [16.0]
    本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 14:22:54 GMT)
  • 日本語のVQAデータセットの提案、公開はされていない?

Sports-QA

  • Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
    スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 02:22:34 GMT)
  • スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい(実践的な)QAとなっているとのこと。
  • The data and codes will be released.とのこと。

SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

Clover: Correlated Video-Language pre-training method

  • Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
    さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。  Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 09:38:52 GMT)

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Video Question Answeringのサーベイ

  • Video Question Answering: Datasets, Algorithms and Challenges [99.9]
    Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Mar 2022 16:34:09 GMT)
    • Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。