OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

  • OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.3]
    大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。 OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。 スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 17:53:03 GMT)
  • 「We introduce OdysseyBench, a comprehensive benchmark for evaluating agents on long- horizon workflows across multiple office applications, consisting of OdysseyBench+ and OdysseyBench-Neo. 」、「• We propose HOMERAGENTS, a multi-agent framework that automates the generation of long-horizon tasks, enabling scalable and diverse benchmark creation.」とベンチマーク作成フレームワークを含むベンチマークの提案。
  • リポジトリはhttps://github.com/microsoft/OdysseyBenchとのことだが現時点では404

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です