Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (Sat, 17 Jan 2026 01:29:30 GMT)
「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
プロジェクトサイトはTerminal-Bench

コメントを残す

コメントを残す コメントをキャンセル