InnoGym: Benchmarking the Innovation Potential of AI Agents 

  • InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
    InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 16:03:04 GMT)
  • 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
  • リポジトリはhttps://github.com/zjunlp/igym

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です