- SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? [0.0]
SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。 独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。 モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
論文 参考訳(メタデータ) (Mon, 17 Feb 2025 18:41:16 GMT) - 「SWE-Lancer encompasses both independent engineering tasks — ranging from $50 bug fixes to $32,000 feature implementations —」と金額換算が可能なベンチマーク
- リポジトリはGitHub – openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?”