How Many Instructions Can LLMs Follow at Once? [0.2] ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。 我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。 私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。 論文参考訳(メタデータ) (Tue, 15 Jul 2025 17:59:42 GMT)
「We propose IFScale, a benchmark designed to investigate how model performance degrades as instruction density increases.」というベンチマークの提案。「(1) threshold decay—near-perfect performance until a critical density, then rising variance and decreased adherence (reasoning models like o3, gemini-2.5-pro), (2) linear decay (gpt-4.1, claude-sonnet-4), and (3) exponential decay (gpt-4o, llama-4-scout).」とモデルごとに挙動が異なるのが興味深い、