Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles 

  • Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.9]
    SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。 本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 11:36:09 GMT)
  • 「This paper introduced SciTrek, a benchmark designed for testing the ability of LLMs to perform multi-document information synthesis and structured reasoning over full-text scientific articles. 」と科学分野のマルチドキュメント・長文ベンチマーク。
  • リポジトリはGitHub – oaimli/SciTrek: Benchmarking long-context language models on scientific articles

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です