Holistic Evaluation of Text-To-Image Models

FELM: Factuality Evaluation of large Language Models

  • FELM: Benchmarking Factuality Evaluation of Large Language Models [40.8]
    本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。 我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。 その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
    論文  参考訳(メタデータ)   (Sun, 1 Oct 2023 17:37:31 GMT)
  • world knowledge、 science/technology、 writing/recommendation、 reasoning、mathのドメインからなるベンチマーク、アノテーションがめっちゃしんどそう。。。
  • リポジトリはGitHub – hkust-nlp/felm: Github repository for “FELM: Benchmarking Factuality Evaluation of Large Language Models”

RoleLLM、RoleBench

MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

Benchmarking Large Language Models As AI Research Agents

  • Benchmarking Large Language Models As AI Research Agents [105.7]
    我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。 長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 04:06:12 GMT)
  • データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
  • リポジトリはGitHub – snap-stanford/MLAgentBench

Fin-Fact

  • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
    Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
    論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
  • 金融分野のファクトチェッキング用データセット&ベンチマーク
  • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

MINT: Multi-turn INTeraction ベンチマーク

  • MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.6]
    我々はMINTベンチマークを導入し、大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価する。 LLMは一般的に、ツールインタラクションと言語フィードバックの恩恵を受けます。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 15:25:42 GMT)
  • マルチターンインタラクションを前提としたベンチマークの提案。「Better single-turn performance does not guarantee better multi-turn performance.」「Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities.」という結果が興味深い。SIFTやRLHFが悪影響を与えるのは本当なんだろうか。。(フィードバックにGPT-4を用いている影響があるのかは知りたいところ。text-bisonでフィードバックをした場合に同傾向なのかなどが気になる)

RGB:  Retrieval-Augmented Generation Benchmark

  • Benchmarking Large Language Models in Retrieval-Augmented Generation [53.5]
    大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。 我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
    論文  参考訳(メタデータ)   (Mon, 4 Sep 2023 08:28:44 GMT)
  • LLM活用に欠かせないRAG能力をnoise robustness, negative rejection, information integration, counterfactual robustnessと整理、ベンチマークを構築。英語と中国語が対象。
  • リポジトリはGitHub – chen700564/RGB

ZhuJiu

  • ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.6]
    大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 06:56:44 GMT)
  • LLM評価のためのベンチマーク、評価観点など参考になる点は多い。
  • プロジェクトサイトはHome (zhujiu-benchmark.com)

LongBench

  • LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
    LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。 英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
    論文  参考訳(メタデータ)   (Mon, 28 Aug 2023 11:53:40 GMT)
  • LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning(「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など), Synthetic Tasks(「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など), Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
  • リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding