Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces 

  • Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.2]
    Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。 ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。 将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
    論文  参考訳(メタデータ)   (Sat, 17 Jan 2026 01:29:30 GMT)
  • 「we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human- written solution, and comprehensive tests for verification.」というベンチマーク。現時点での最高性能はDroid (GPT-5.2)、ベースモデルもだがエージェントフレームワークも良く寄与していそうな結果。
  • プロジェクトサイトはTerminal-Bench

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です