Fin-Fact

  • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
    Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
    論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
  • 金融分野のファクトチェッキング用データセット&ベンチマーク
  • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

LMSYS-Chat-1M

  • LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [76.0]
    LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。 このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
    論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 12:13:55 GMT)
  • LMSYSによる大規模対話データセット。lmsys/lmsys-chat-1m · Datasets at Hugging Faceからアクセス可能。
  • 「Although most conversations are with Vicuna, we think the prompts alone are already highly valuable and one can use other models to regenerate answers if needed.」とのこと。言語は英語が圧倒的に多く、ポルトガル語、ロシア語、中国語、スペイン語と続く。unknownを除き日本語は9位?

SlimPajama-DC: Understanding Data Combinations for LLM Training

  • SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
    本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 17:59:54 GMT)
  • LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)
  • データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face

MDDS(Multi-document Diversity Summarization) & DIVERSESUMM

  • Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [142.7]
    同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。 この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。 データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
    論文  参考訳(メタデータ)   (Sun, 17 Sep 2023 20:28:17 GMT)
  • Multi-document Summarizationを対象としたタスクとデータセットの構築。MDDS (Multi-document Diversity Summarization)という複数の情報源の利用を前提としたタスクを提案している。現実的ではあるがGPT-4であっても十分な性能とは言い難い難しいタスクとのこと。
  • 現時点でデータセットは公開されていない?
  • Summarization is (Almost) Dead [49.4]
    我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。 本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
    論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 08:13:01 GMT)

という論文も出ていたが、要約関連のタスクバリエーションはいろいろ考えられそう。(要約というかレポーティングに近くなっていきそうな気もしつつ)

ExpertQA

  • ExpertQA: Expert-Curated Questions and Attributed Answers [54.8]
    本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。 まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 16:54:34 GMT)
  • 高品質な長文QAデータセットの提案。「EXPERTQA contains 2177 informationseeking questions formulated by experts spanning 32 fields, as well as expert-verified, model-generated answers to these questions.」と非常に構築の手間がかかったデータセットになっている。論文に書かれたFindingsが非常に興味深い。
  • リポジトリはGitHub – chaitanyamalaviya/ExpertQA: [Data + code] ExpertQA : Expert-Curated Questions and Attributed Answers

WeatherBench 2

  • WeatherBench 2: A benchmark for the next generation of data-driven global weather models [42.3]
    WeatherBench 2は、Raspらによって提案されたグローバルな中距離(1~14日)の天気予報ベンチマークのアップデートである。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。
    論文  参考訳(メタデータ)   (Tue, 29 Aug 2023 18:32:08 GMT)
  • data-driven weather modeling用データ、プロジェクトサイトがとても充実している。
  • プロジェクトサイトはWeatherBench (research.google)

The Belebele Benchmark

  • The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [82.6]
    私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。 このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
    論文  参考訳(メタデータ)   (Thu, 31 Aug 2023 17:43:08 GMT)
  • 「multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants.」ということで非常に多言語のMRCデータセット。機械翻訳におけるFLORES-200のような立ち位置で非常に貴重なデータセット
  • 「GPT3.5-TURBO performs the best on the top 20 languages, but after 40-50, its performance falls far behind INFOXLM and XLM-V.」というベンチマーク結果が興味深い。商業システムはある程度ターゲットとなる言語を絞っているよう。
  • リポジトリはGitHub – facebookresearch/belebele: Repo for the Belebele dataset, a massively multilingual reading comprehension dataset.

PIPPA: Personal Interaction Pairs between People and AI

  • PIPPA: A Partially Synthetic Conversational Dataset [13.4]
    PIPPA(Personal Interaction Pairs between People and AI)という部分合成データセットを導入する。 PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。 データセットは、26,000の会話セッションに分散された100万以上の発話で構成されている。
    論文  参考訳(メタデータ)   (Fri, 11 Aug 2023 00:33:26 GMT)
  •  26,000 conversation sessions、100万発話という大規模な人間-対話エージェント間のデータセット。
  • データとモデルはHuggingfaceで公開されている PygmalionAI (Pygmalion) (huggingface.co)、データのライセンスはAGPLとのこと。

SuperCLUE

  • SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.8]
    中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
    論文  参考訳(メタデータ)   (Thu, 27 Jul 2023 17:24:09 GMT)
  • LLMを対象とした中国語の総合ベンチマークの提案。ベンチマークの構成や評価の仕方(GPT-4の使い方)がとても興味深い。
  • 論文中では「Evaluation results show that there is still a large gap between Chinese LLMs and the top-performing models in the world.」と結論しているものの、ベンチマークの整備やモデル開発、最新手法の開発は非常に盛んで中国が米国を猛追している印象。
  • プロジェクトサイトはcluebenchmarks.com/superclue.html

L-Eval

  • L-Eval: Instituting Standardized Evaluation for Long Context Language Models [45.8]
    長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。 L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。 私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
    論文  参考訳(メタデータ)   (Thu, 20 Jul 2023 17:59:41 GMT)
  • 長文を扱うベンチマークでタスクは様々(選択式の質問回答、Question Answering、要約など)、「GPT3.5-16k and Claude-100k are more advanced compared to the open-source models」とのことでこの差が縮まっていくか興味津々
  • リポジトリはGitHub – OpenLMLab/LEval: Data and code for L-Eval, a comprehensive long context language models evaluation benchmark