OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks

  • OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
    ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 14:35:23 GMT)
  • 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
  • プロジェクトサイトはOS-Marathon Benchmark

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です