RGB:  Retrieval-Augmented Generation Benchmark

  • Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
    大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
    論文  参考訳(メタデータ)   (Mon, 4 Sep 2023 08:28:44 GMT)
  • LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
  • リポジトリはGitHub – chen700564/RGB

ZhuJiu

  • ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.6]
    大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 06:56:44 GMT)
  • LLM評価のためのベンチマーク、評価観点など参考になる点は多い。
  • プロジェクトサイトはHome (zhujiu-benchmark.com)

LongBench

  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
    LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。 英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 11:53:40 GMT)
  • LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning(「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など), Synthetic Tasks(「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など), Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
  • リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MM-Vet

  • MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
    複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
    論文  参考訳(メタデータ)   (Fri, 4 Aug 2023 17:59:47 GMT)
  • VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力(例えば画像にある数字を読み取ったうえで計算しないといけない等)が必要なデータセットになっていてより困難。
  • リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

  • Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
    最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 07:02:13 GMT)
  • 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
  • リポジトリはGitHub – DCDmllm/Cheetah

SuperCLUE

  • SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
    中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 17:24:09 GMT)
  • LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
  • 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
  • プロジェクトサイトはcluebenchmarks.com/superclue.html

L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark

MultiRobustBench

  • MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
    機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。 我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 01:34:16 GMT)
  • あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
  • プロジェクトサイトはmultirobustbench.github.io

WebArena

  • WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
    エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 22:59:32 GMT)
  • Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
  • プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

How is ChatGPT’s behavior changing over time?