MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

  • MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
    MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 06:57:21 GMT)
  • 非常に凝った構成のRAG(AgenticRAG)
  • リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation 

  • MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5]
    MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。 我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:59:20 GMT)
  • 「MMLU-ProX extends the challenging MMLU-Pro benchmark to encompass 13 typologically diverse languages: English (EN), Chinese (ZH), Japanese (JA), Korean (KO), French (FR), German (DE), Spanish (ES), Portuguese (PT), Arabic (AR), Thai (TH), Hindi (HI), Bengali (BN), and Swahili (SW).」、「By carefully translating the same set of questions across all languages, MMLU-ProX facilitates direct comparison of model performance across linguistic boundaries while controlling for question difficulty.」というベンチマーク。多言語で評価可能なベンチマークを使うと言語間差異がよくわかる。
  • プロジェクトサイトはMMLU-ProX: A Multilingual Benchmark for Advanced LLM Evaluation

EnvBench: A Benchmark for Automated Environment Setup 

  • EnvBench: A Benchmark for Automated Environment Setup [76.0]
    大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。 環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。 このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 17:19:12 GMT)
  • 環境設定に関するベンチマーク。実用上はとても大事で状況によってはコード生成よりうれしいことがあるかもしれない。。
  • エージェントを使ってなおスコアが低い難しいベンチマークのよう。
  • リポジトリはGitHub – JetBrains-Research/EnvBench: [DL4C @ ICLR 2025] A Benchmark for Automated Environment Setup🌱⚙️ EnvBench – a JetBrains-Research Collection