SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

  • SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.2]
    大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。 マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 15:30:05 GMT)
  • Javaを対象としたSWE-bench。leakの心配はなくはないが、丁寧に構築されたデータセットであり良い評価ができそう。現状のリーダーボードだとSWE-agent + deepseek-chat-v2 > SWE-agent + deepseek-coder-v2 > SWE-agent + gpt-4o-2024-05-13と、deepseek v2がGPT-4oを上回っている。
  • リポジトリはMulti-SWE-bench

LogicGame

  • LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
    大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:16:41 GMT)
  • ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
  • GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

TableBench

  • TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
    本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
    論文  参考訳(メタデータ)   (Sat, 17 Aug 2024 11:40:10 GMT)
  • TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
  • リポジトリはTableBench Homepage

CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

RAGEval

  • RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.5]
    既存のRAGベンチマークは主に、大言語モデルが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 本稿では,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
    論文  参考訳(メタデータ)   (Fri, 02 Aug 2024 13:35:11 GMT)
  • RAGを評価するベンチマークの自動生成フレームワーク。DRAGONBall dataset(Diverse RAG Omni-Benchmark for All domains)って・・・。
  • 分析結果から見えるGenerate、Retrieverそれぞれのモデルの性能が興味深い。結論には「Notably, while GPT-4o showed superior performance overall, the gap with top-performing open-source models was relatively small.」という指摘も。

AssistantBench

  • AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
    言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 15:18:45 GMT)
  • WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
  • プロジェクトサイトはAssistantBench

LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

  • DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
    本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 13:17:42 GMT)
  • 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
  • リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems