The Self-Execution Benchmark: Measuring LLMs’ Attempts to Overcome Their Lack of Self-Execution
The Self-Execution Benchmark: Measuring LLMs’ Attempts to Overcome Their Lack of Self-Execution [13.6] 大規模言語モデル(LLM)は、知識や推論能力をテストするタスクで一般的に評価される。 本稿では、モデルが出力の特性を予測できる能力を測定するセルフ実行ベンチマークを紹介する。 私たちの実験では、モデルが一般的にこのベンチマークではパフォーマンスが悪く、モデルのサイズや能力が向上しても、常にパフォーマンスが向上するとは限らないことが示されています。 論文参考訳(メタデータ) (Sun, 17 Aug 2025 07:57:58 GMT)
「Since LLMs lack the ability to execute themselves, we introduce the Self-Execution Benchmark, which measures a model’s ability to anticipate properties of its output, such as whether a question will be difficult for it, whether it will refuse to answer, or what kinds of associations it is likely to produce. Our experiments show that models generally perform poorly on this bench- mark, and that increased model size or capability does not consistently lead to better performance.」という変わったベンチマーク。メタな視点になっていて結果を含めとても興味深い。