L-Eval – arXiv最新論文の紹介

L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 17:59:41 GMT)
長文を扱うベンチマークでタスクは様々（選択式の質問回答、Question Answering、要約など）、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

コメントを残す

コメントを残す コメントをキャンセル