DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 13:17:42 GMT)
「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

コメントを残す

コメントを残す コメントをキャンセル