TableBench

  • TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
    本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
    論文  参考訳(メタデータ)   (Sat, 17 Aug 2024 11:40:10 GMT)
  • TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
  • リポジトリはTableBench Homepage

CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

RAGEval

  • RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
    既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 13:35:11 GMT)
  • RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
  • 分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。

AssistantBench

  • AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
    言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 15:18:45 GMT)
  • WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
  • プロジェクトサイトはAssistantBench

LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

  • DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
    本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 13:17:42 GMT)
  • 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
  • リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

GTA: A Benchmark for General Tool Agents 

  • GTA: A Benchmark for General Tool Agents [32.4]
    229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
    論文  参考訳(メタデータ)   (Thu, 11 Jul 2024 17:50:09 GMT)
  • リアルなシナリオでツールを利用して問題を解くエージェントの能力を評価するベンチマーク。想定されているツールはOCRやDrawBox、Calculator、TextToImageなど14種類。「Our findings show that realworld user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%.」とのこと。
  • リポジトリはGitHub – open-compass/GTA: Official repository for paper “GTA: A Benchmark for General Tool Agents”

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

  • Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
    我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 17:54:37 GMT)
  • マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
  • 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
  • リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?