L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です