- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 13:17:42 GMT) - 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
- リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems