- T-Eval: Evaluating the Tool Utilization Capability Step by Step [69.6]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。 LLMのツール活用能力の評価と分析方法はまだ未検討である。
論文 参考訳(メタデータ) (Thu, 21 Dec 2023 17:02:06 GMT) - LLMによるツール活用能力のベンチマーク、INSTRUCT、PLAN、 REASON、 RETRIEVE、 UNDERSTAND、REVIEWを測る構成。GPT-4がさすがのスコアだが、性能には結構なムラがあるよう。GPT-4のREVIEW能力の高さが気になるところ。
- リポジトリはGitHub – open-compass/T-Eval: T-Eval: Evaluating Your LLMs on Tool Utilization Step by Step
タグ: ベンチマーク
NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation
- NoMIRACL: Knowing When You Don’t Know for Robust Multilingual Retrieval-Augmented Generation [92.5]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
論文 参考訳(メタデータ) (Mon, 18 Dec 2023 17:18:04 GMT) - RAGにおける頑健性のマルチリンガルなベンチマーク。 hallucination rateとerror rateがメトリクス。GPT-4のbase lineがあるが「GPT-4 achieves a high 33.2% hallucination rate on the non-relevant subset and 14.9% error rate on the relevant NoMIRACL split, highlighting that GPT-4 finds it challenging to dismiss non-relevant passages over relevant passages in first-stage retrieved information.」と十分とは言えなさそうな結果。日本語はhallucination rateが高くerror rateが低い結果となっている。
- リポジトリはproject-miracl/nomiracl: A multilingual dataset to evaluate LLM robustness in RAG setup against first-stage retrieval errors on 18 languages. (github.com)
PromptBench
- PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (Wed, 13 Dec 2023 05:58:34 GMT) - LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
- リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models
SciGuardとSciMT-Safety
- Control Risk for Potential Misuse of Artificial Intelligence in Science [85.9]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。 化学科学における誤用の実例を取り上げる。 我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 18:50:57 GMT) - 科学におけるAI誤用の危険性を防ぐフレームワークを提案。化学分野での具体的検討して有毒物質の合成経路を出させるものを挙げている。
- 上記を防ぐため規制ガイドラインデータベースなどを中に持つSciGuard フレームワークを提案。同時にベンチマークとしてSciMT-Safetyを提案。「The SciMT-Safety dataset comprises hundreds of refined red-teaming queries that span the fields of chemistry and biology.」とのこと。不公正・攻撃性の高い言動や違法行為に関するような社会的な誤用に対するベンチマークはよく見るが、科学分野におけるベンチマークは珍しい。
- ベンチマークはGitHub – SciMT/SciMT-benchmarkで公開予定とのこと。
CyberSecEval
- Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (Thu, 7 Dec 2023 22:07:54 GMT) - セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
- 「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
- リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub
Ego-Exo4D
- Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.5]
多様な大規模マルチモーダルビデオデータセットとベンチマークチャレンジであるEgo-Exo4Dを提案する。Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。 世界の13都市から800人以上の参加者が131の異なる自然シーンでこれらの活動を行った。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 05:21:07 GMT) - マルチモーダル認識のための基礎データセットの提案、1400時間超と大規模
- プロジェクトサイトはEgo-Exo4D (ego-exo4d-data.org)
GAIA: A Benchmark for General AI Assistants
- GAIA: a benchmark for General AI Assistants [31.7]
一般AIアシスタントのベンチマークであるGAIAを紹介します。 GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。 GAIAの質問は、人間にとって概念的には単純だが、ほとんどの高度なAIでは困難である。
論文 参考訳(メタデータ) (Tue, 21 Nov 2023 20:34:47 GMT) - AIアシスタントのためのベンチマーク、人が92%正解できる一方でツールのアシストがあってもGPT-4の正解率はレベル1でも30%程度と非常に難しく、人間とAIの差が大きく出るタスクになっている。
- レベル1では5step程度の推論、レベル2では5-10ステップの推論+ツールの利用、レベル3では長いシーケンスの推論が必要とのこと。gaia-benchmark/GAIA · Datasets at Hugging Faceでサンプルがみられる。レベル3は検索しまくらないと解けなさそう。。
- リポジトリはgaia-benchmark (GAIA) (huggingface.co)
AlignBenchとCRITIQUELLM
中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsとGitHub – thu-coai/CritiqueLLM
データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。
- AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 17:41:30 GMT)
- CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (Thu, 30 Nov 2023 16:52:42 GMT)
INSTRUSUM
- Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。 本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (Wed, 15 Nov 2023 18:25:26 GMT) - 制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。(もとから簡単なタスクではないではないものの)LLMであれば対応可能と言い切れないのは興味深い結果。
- リポジトリはGitHub – yale-nlp/InstruSum
Holistic Evaluation of Text-To-Image Models
- Holistic Evaluation of Text-To-Image Models [153.5]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。 テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。 以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 19:00:56 GMT) - 「text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency」と12の側面での画像生成AIの評価。結果は「Overall, DALL-E 2 appears to be a versatile performer across human metrics.However, no single model emerges as the top performer in all aspects.」とのこと。
- リポジトリはGitHub – stanford-crfm/helm: Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).、Holistic Evaluation of Text-To-Image Models (HEIM) (stanford.edu)