Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

  • Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving [26.0]
    Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。 これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。 3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。 大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
    論文  参考訳(メタデータ)   (Thu, 03 Apr 2025 14:06:17 GMT)
  • 「we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++.」というある意味多言語なベンチマーク。基本的にOpenHandsの改修版であるMopenHandsが有力に見えるが、言語間で差があるのが興味深い。
  • リポジトリはGitHub – multi-swe-bench/multi-swe-bench: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving、リーダーボードはMulti-SWE-bench
  • 「Multi-SWE-RL is an open-source community aimed at developing high-quality RL training datasets for complex software engineering tasks. Its purpose is to serve as the foundational infrastructure for training fully autonomous agents capable of addressing real-world software engineering challenges, paving the way toward achieving AGI.」とAGIに言及があるのと「In light of these advancements, we are firmly convinced that “scaling RL in real-world environments is the path toward human-like intelligence”.」は熱い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です