SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.9] エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。 キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。 自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。 論文参考訳(メタデータ) (Fri, 13 Feb 2026 07:06:06 GMT)
Skillsに関するベンチマーク。Findingsが「(1) curated Skills provide substantial but variable benefit (+16.2 percentage points average, with high variance across domains and configurations); (2) self-generated Skills provide negligible or negative benefit (–1.3pp average), demonstrating that effective Skills require human- curated domain expertise; (3) less is more—focused Skills with 2–3 modules outperform comprehensive documentation; and (4) Skills can partially substitute for model scale, enabling smaller models to match larger ones on procedural tasks.」が興味深く、(2)もそうだろうと思わなくはないが、今後の工夫でどうにかなるのかが気になるところ。