StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs

  • StructTest: Benchmarking LLMs’ Reasoning through Compositional Structured Outputs [78.8]
    StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。 StructTestが一般的な推論能力のよいプロキシであることを示す。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 22:08:40 GMT)
  • 構造化出力のベンチマーク、「programmatically verifiable benchmark for evaluating instructionfollowing capabilities through structured outputs.」
  • 現時点でデータは公開されていない・・・?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です