科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、
- SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 17:36:02 GMT) - プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
- HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (Sun, 28 Dec 2025 12:08:05 GMT) - こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?