Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles

Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.9]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文参考訳（メタデータ） (Thu, 25 Sep 2025 11:36:09 GMT)
「This paper introduced SciTrek, a benchmark designed for testing the ability of LLMs to perform multi-document information synthesis and structured reasoning over full-text scientific articles. 」と科学分野のマルチドキュメント・長文ベンチマーク。
リポジトリはGitHub – oaimli/SciTrek: Benchmarking long-context language models on scientific articles

コメントを残す

コメントを残す コメントをキャンセル