FunQA, Movie101

  • FunQA: Towards Surprising Video Comprehension [34.3]
    本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:55 GMT)
  • ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
  • Movie101: A New Movie Understanding Benchmark [47.2]
    大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 11:42:44 GMT)
  • こちらはナレーション作成のタスクを対象とした映画のデータセット
  • 同じく著作権的な疑問点があるためリンクは貼っていない

この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。

OpenOOD

  • OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection [81.3]
    アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。 本稿では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。
    論文  参考訳(メタデータ)   (Sat, 17 Jun 2023 01:14:56 GMT)
  • Out of Distribution(OOD)検出のためのベンチマーク、リポジトリにある手法やタスク、データの整理が非常にわかりやすい
  • プロジェクトサイトはGitHub – Jingkang50/OpenOOD: Benchmarking Generalized Out-of-Distribution Detection

AlgoPerf: Training Algorithms benchmark / Benchmarking Neural Network Training Algorithms

  • Benchmarking Neural Network Training Algorithms [46.4]
    トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。 コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。 固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 15:21:02 GMT)
  • トレーニングアルゴリズムの改善を測るためのベンチマークの提案。多くの研究者が慎重に検討しており論文も長く詳細。勉強になる。

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

  • KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
    我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。 能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。 データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 17:20:46 GMT)
  • Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
  • プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

CMMLU: Chinese Massive Multitask Language Understanding

  • CMMLU: Measuring massive multitask language understanding in Chinese [121.8]
    本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
    論文  参考訳(メタデータ)   (Thu, 15 Jun 2023 15:49:51 GMT)
  • 中国語の総合ベンチマーク、中国語固有の回答などが含まれるデータセットであるとのこと。正答率はChatGPTでも55.51%と難しいタスク(ランダム回答だと25%)、OSSなモデルのベストはFalcon-40Bの41.45%、LLaMA 65Bは39.80%とChatGPTからの性能差は大きい。ChatGLM-6Bの37.48%、BLOOMZ-7Bの37.04%を見るに中国語に対応させに行く方向性は有効そうではある。
  • リポジトリはGitHub – haonan-li/CMMLU

BIG-bench: Beyond the Imitation Game benchmark (論文ver3)

  • Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.4]
    言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
    論文  参考訳(メタデータ)   (Mon, 12 Jun 2023 17:51:15 GMT)
  • BIG-Benchの論文がアップデートされている。GPT-4やPaLM2の結果を期待していたがそのような大規模アップデートではなさそう。。
  • 元々の紹介はBeyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”

XTREME-UP

  • XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
    データ不足は、多言語NLPシステムの開発において重要な問題である。 我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 06:09:28 GMT)
  • 非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
  • リポジトリはGitHub – google-research/xtreme-up

What’s the Meaning of Superhuman Performance in Today’s NLU?

  • What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
    我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。 より公平で透過的なベンチマークのためのレコメンデーションを提供します。
    論文  参考訳(メタデータ)   (Mon, 15 May 2023 07:48:31 GMT)
  • ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは?について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark

  • GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
    我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。 オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。 我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
    論文  参考訳(メタデータ)   (Thu, 11 May 2023 03:21:56 GMT)
  • 地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classificationがタスク。実用性が高そうなタスクという印象。
  • リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)