Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

  • Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
    大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 06:10:01 GMT)
  • モバイルエージェント向けベンチマーク
  • リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと(arXivへの公開時点では404)

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

  • BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.6]
    BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。 私たちはまず『Understanding Literature』を2つの原子能力に分解した。 次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。 2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
    論文  参考訳(メタデータ)   (Sat, 29 Jun 2024 15:23:28 GMT)
  • biomedical分野向けのAIエージェントベンチマーク。「Knowledge Graph Question Answering」、「Scientific Claim Verification」を基礎的能力としてKGCheckという総合的なタスクを提案
  • リポジトリはGitHub – westlake-autolab/Agent4S-BioKG: Agent4S-BioKG: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

AutoBencher、A Survey of Data Synthesis Approaches

  • AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
    3つのデシラタを言語モデルのための優れたベンチマークとして提示する。 ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
    論文  参考訳(メタデータ)   (Thu, 11 Jul 2024 10:03:47 GMT)
  • ベンチマークを自動的に構築する取り組み。
  • しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
  • リポジトリはGitHub – XiangLi1999/AutoBencher
  • A Survey of Data Synthesis Approaches [20.2]
    1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。 本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 06:37:09 GMT)
  • 合成データ関連のサーベイ。
  • リポジトリはGitHub – MiuLab/SynData-Survey

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

  • MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
    MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 17:59:26 GMT)
  • マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
  • リポジトリはMMLongBench-Doc (mayubo2333.github.io)

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

  • LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
    人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 14:56:13 GMT)
  • よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
  • リポジトリはGitHub – dmg-illc/JUDGE-BENCH

WildVision

  • WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
    WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
    論文  参考訳(メタデータ)   (Sun, 16 Jun 2024 20:53:25 GMT)
  • Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
  • プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? 

  • OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
    我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。 本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 16:31:12 GMT)
  • 最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
  • リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track

  • Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.3]
    RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。 TREC 2024 RAG Trackを提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 17:37:52 GMT)
  • すごい名前のRAG評価用ベンチマーク・フレームワーク
  • リポジトリはGitHub – castorini/ragnarok: Retrieval-Augmented Generation battle!

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

  • SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
    LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 21:52:21 GMT)
  • 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
  • リポジトリはtuanh23/SciEx · Datasets at Hugging Face

CS-Bench

  • CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
    計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 18:47:28 GMT)
  • コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
  • リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)