EWOK: Elements of World Knowledge

  • Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models [42.5]
    本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。 次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。
    論文  参考訳(メタデータ)   (Wed, 15 May 2024 17:19:42 GMT)
  • LLMの世界の知識(物理的なもの、空間的なもの、社会的なものなど様々なドメインが含まれる)を評価するためのベンチマーク。「Community Standard for Use of Evaluation Data」も面白い。
  • リポジトリはEWoK: Elements of World Knowledge (ewok-core.github.io)

Causal Evaluation of Language Models 

  • Causal Evaluation of Language Models [33.3]
    言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 16:43:21 GMT)
  • LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
  • プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

  • Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
    CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 14:20:55 GMT)
  • 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
  • リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

Introducing v0.5 of the AI Safety Benchmark from MLCommons

JailBreakV-28K

  • JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.7]
    本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。 MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。 LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 19:23:18 GMT)
  • MLLMへのJailbreakベンチマーク。「Our extensive experiments reveal that MLLMs inherit vulnerability from their LLM counterparts.」はまぁそうだろうと思いつつ・・・「In addition, text-based jailbreak attacks are more effective than image-based jailbreak attacks and are effective regardless of the image input.」は・・・
  • リポジトリはJailbreakV-28K/JailBreakV-28k · Datasets at Hugging Face

AutoRace: AUTOmated ReAsoning Chain Evaluation

  • LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
    完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 06:35:09 GMT)
  • 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
  • プロジェクトサイトはHome | Reasoners (llm-reasoners.net)

METAL: Towards Multilingual Meta-Evaluation 

  • METAL: Towards Multilingual Meta-Evaluation [12.9]
    本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。 要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 06:14:54 GMT)
  • マルチリンガルなLLM評価フレームワークの提案、GPT-4はやはり優秀。だが「Finally, we analyze human and LLM reasoning and observe that LLMs often provide incorrect justifications for their scores, thus showing that more research is needed to be able to use LLM-based evaluators with confidence in the multilingual setting.」・・・。わりとよく言われていることではある・・・。
  • リポジトリはhadarishav/METAL: Code and data repo for NAACL’24 findings paper “METAL: Towards Multilingual Meta Evaluation” (github.com)

VisualWebBench

  • VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.6]
    MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
    論文  参考訳(メタデータ)   (Tue, 09 Apr 2024 02:29:39 GMT)
  • マルチモーダルなLLMを対処としたWeb undestandingタスクのベンチマーク「VisualWebBench consists of seven tasks, and comprises 1.5K human-curated instances from 139 real websites, covering 87 sub-domains.」とそこそこの規模。結果はタスクによって異なるが、平均的にはClaude Sonnet > GPT-4V > Claude Opus > LLaVA-1.6-34B > Gemini Pro とやや意外。日本語版作りたいなーと思わなくもない。
  • リポジトリはVisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

ReaLMistake

Deepfake Generation and Detection: A Benchmark and Survey

  • Deepfake Generation and Detection: A Benchmark and Survey [138.0]
    この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。 代表的な4つのディープフェイク分野(顔スワップ、顔再現、話し顔生成、顔属性編集、外国検出)の研究に重点を置いている。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 17:12:34 GMT)
  • ディープフェイクの生成・検知に関するサーベイ。検出について「Most detection models follow a generic approach targeting common operational steps of a specific forgery method, such as the integration phase in face swapping or assessing temporal inconsistencies, but this manner limits the model’s generalization capabilities.」というのは重要な指摘
  • 包括的なサーベイであるとともに、各手法のスコアもまとまっているのが大変ありがたい。