コンテンツへスキップ
- Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.8]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。 Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 06:10:01 GMT)
- モバイルエージェント向けベンチマーク
- リポジトリはhttps://github.com/XiaoMi/MobileBenchとのこと(arXivへの公開時点では404)
- AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。 ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (Thu, 11 Jul 2024 10:03:47 GMT)
- ベンチマークを自動的に構築する取り組み。
- しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
- リポジトリはGitHub – XiangLi1999/AutoBencher
- A Survey of Data Synthesis Approaches [20.2]
1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。 本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 06:37:09 GMT)
- 合成データ関連のサーベイ。
- リポジトリはGitHub – MiuLab/SynData-Survey
- MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 17:59:26 GMT)
- マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
- リポジトリはMMLongBench-Doc (mayubo2333.github.io)
- LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 14:56:13 GMT)
- よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
- リポジトリはGitHub – dmg-illc/JUDGE-BENCH
- WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.9]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (Sun, 16 Jun 2024 20:53:25 GMT)
- Vision Languageモデルの評価環境、人間の好みを収集するオンラインプラットフォームWILDVISION-ARENA(WV-ARENA)を作成。GPT-4の優秀さ、他のベンチマークとの差異が興味深い。
- プロジェクトサイトはVision Arena (Testing VLMs side-by-side) – a Hugging Face Space by WildVision
- SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (Fri, 14 Jun 2024 21:52:21 GMT)
- 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
- リポジトリはtuanh23/SciEx · Datasets at Hugging Face