- EnvBench: A Benchmark for Automated Environment Setup [76.0]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。 環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。 このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 17:19:12 GMT) - 環境設定に関するベンチマーク。実用上はとても大事で状況によってはコード生成よりうれしいことがあるかもしれない。。
- エージェントを使ってなおスコアが低い難しいベンチマークのよう。
- リポジトリはGitHub – JetBrains-Research/EnvBench: [DL4C @ ICLR 2025] A Benchmark for Automated Environment Setup、🌱⚙️ EnvBench – a JetBrains-Research Collection