The Ever-Evolving Science Exam

  • The Ever-Evolving Science Exam [32.2]
    1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(クエスト・アンサー・ペア)と,2)定期的に更新された500インスタンスサブセット**EESE*,サンプルと検証により,リーク耐性,低オーバヘッド評価を実現する。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 12:22:16 GMT)
  • 「1) We build a large-scale, high-quality, non-public instances repository, named EESE-Pool, which contains over 100,000 science in- stances. This pool is constructed under strict principles of Range, Reach, and Rigor. 2) We periodically sample a dynamic subset of 500 instances, called EESE, for actual evaluation. This subset is carefully curated to maintain Range, Reach, and Rigor, while mitigating leakage risk and reducing evaluation inefficiency through regular updates.」という大規模でLeakなどに強いベンチマークの提案。
  • リポジトリはaiben-ch/EESE: The Ever-Evolving Science Exam

Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text 

  • Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.7]
    テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。 1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。 これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
    論文  参考訳(メタデータ)   (Sat, 26 Jul 2025 14:59:04 GMT)
  • 「We introduce Text2Vis, a benchmark for evaluating LLMs in text-to-visualization tasks, featuring diverse datasets and over 20 chart types to support complex queries involving multi-step reasoning, retrieval, multi-chart generation, and conversations.」というベンチマークの提案。Agenticな処理フレームワークによって性能が向上とのこと。
  • リポジトリはvis-nlp/Text2Vis

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

  • Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers [22.8]
    本稿では,科学文献におけるスキーマ図の解釈能力を評価するための最初のベンチマークであるMIS-QAを紹介する。 MISS-QAは465以上の科学論文に1500の専門家が注釈を付けた例で構成されている。 我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18のフロンティアマルチモーダル基盤モデルの性能を評価する。
    論文  参考訳(メタデータ)   (Mon, 14 Jul 2025 20:35:25 GMT)
  • 「We present MISS-QA, the first benchmark specifically designed to assess the ability of foundation models to comprehend schematic diagrams in scientific literature.」ということで、概念図等を理解するためのベンチマークの提案。o4-miniの性能が高めだが、人間との差は大きい。
  • データはyale-nlp/MISS-QA · Datasets at Hugging Face、リポジトリはGitHub – yilunzhao/MISS-QA

Pixels, Patterns, but No Poetry: To See The World like Humans 

  • Pixels, Patterns, but No Poetry: To See The World like Humans [33.8]
    最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。 この論文は、推論から知覚へと焦点を移す。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 21:50:16 GMT)
  • 人間だと直感的に理解可能な Turing Eye Test (TET)の提案。「Through four diagnostic tasks involving concealed text, 3D Captchas, Chinese character compositions, and color blind test charts, we demonstrated that state-of-the-art MLLMs exhibit catastrophic failures on perceptual tasks that humans solve intuitively.」とAIにはとけないものが多い。創作漢字コンテストの漢字を理解できるか興味深いところ(leakが怖いが…)。
  • プロジェクトサイトはPixels, Patterns, but no Poetry: To See the World like Humans

How Many Instructions Can LLMs Follow at Once? 

  • How Many Instructions Can LLMs Follow at Once? [0.2]
    ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。 我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。 私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 17:59:42 GMT)
  • 「We propose IFScale, a benchmark designed to investigate how model performance degrades as instruction density increases.」というベンチマークの提案。「(1) threshold decay—near-perfect performance until a critical density, then rising variance and decreased adherence (reasoning models like o3, gemini-2.5-pro), (2) linear decay (gpt-4.1, claude-sonnet-4), and (3) exponential decay (gpt-4o, llama-4-scout).」とモデルごとに挙動が異なるのが興味深い、
  • リポジトリはIFScale: Instruction Following at Scale

Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop

  • Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop [120.3]
    RoboTwin Dual-Arm Collaboration Challengeは、CVPR 2025の第2回MeISワークショップで行われた。 ライバルは、剛性、変形性、触覚ベースのシナリオをカバーする17のデュアルアーム操作タスクに完全に取り組んだ。 コンペティションの設定、タスク設計、評価方法論、重要な発見と今後の方向性について概説する。
    論文  参考訳(メタデータ)   (Sun, 29 Jun 2025 17:56:41 GMT)
  • 「RoboTwin Dual-Arm Collaboration Challenge at the 2nd MEIS Workshop, CVPR 2025」の紹介
  • プロジェクトサイトはRoboTwin Dual-Arm Collaboration Challenge

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements 

Establishing Best Practices for Building Rigorous Agentic Benchmarks 

  • Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.7]
    多くのエージェントベンチマークではタスク設定や報酬設計が問題となっている。 このような問題は、相対的な用語で、過小評価または過大評価エージェントのパフォーマンスを最大100%向上させる可能性がある。 我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:35:31 GMT)
  • 構築が難しいエージェント系ベンチマークの注意点をまとめた論文。
  • 「the issues found in τ-bench-Airline, some other example issues we found are: (1) an agent can score 100% on SWE-Lancer without resolving any tasks;」のような問題は相応にある気がするし、「Based on ABC, we assessed ten widely used agentic benchmarks and identified significant evaluation issues that cases up to 100% errors (in relative terms) when estimating agents’ performance.」も驚愕という感じではない。
  • リポジトリはGitHub – uiuc-kang-lab/agentic-benchmarks

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

  • RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies [125.4]
    本稿では,実世界における汎用ロボットポリシーのスケーラブルな評価手法であるRoboArenaを提案する。 固定タスク,環境,場所に関する評価を標準化する代わりに,評価者の分散ネットワークにまたがるクラウドソース評価を提案する。 我々は、DROIDロボットプラットフォームを用いて、7つの学術機関における評価者のネットワークにアプローチをインスタンス化する。
    論文  参考訳(メタデータ)   (Sun, 22 Jun 2025 18:13:31 GMT)
  • 「In this work, we propose RoboArena, a new approach for scalable evaluation of generalist robot policies in the real world.」というrobot policyにフォーカスした評価フレームワークの提案。
  • プロジェクトサイトはRoboArena

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation 

  • MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
    MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 22:01:49 GMT)
  • 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
  • リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)