The Ever-Evolving Science Exam

  • The Ever-Evolving Science Exam [32.2]
    1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(クエスト・アンサー・ペア)と,2)定期的に更新された500インスタンスサブセット**EESE*,サンプルと検証により,リーク耐性,低オーバヘッド評価を実現する。
    論文  参考訳(メタデータ)   (Tue, 22 Jul 2025 12:22:16 GMT)
  • 「1) We build a large-scale, high-quality, non-public instances repository, named EESE-Pool, which contains over 100,000 science in- stances. This pool is constructed under strict principles of Range, Reach, and Rigor. 2) We periodically sample a dynamic subset of 500 instances, called EESE, for actual evaluation. This subset is carefully curated to maintain Range, Reach, and Rigor, while mitigating leakage risk and reducing evaluation inefficiency through regular updates.」という大規模でLeakなどに強いベンチマークの提案。
  • リポジトリはaiben-ch/EESE: The Ever-Evolving Science Exam

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です