- IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.3]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。 IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。 我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (Sun, 19 Jan 2025 14:58:35 GMT) - 対話型AIの評価フレームワーク
- リポジトリはGitHub – plurai-ai/intellagent: A framework for comprehensive diagnosis and evaluation of conversational agents using simulated, realistic synthetic interactions
タグ: 評価手法
Benchmarking Large and Small MLLMs
- Benchmarking Large and Small MLLMs [71.8]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。 しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (Sat, 04 Jan 2025 07:44:49 GMT) - MLLMの包括的評価。
- 「GPT-4o establishes a new standard for multimodal understanding and reasoning across diverse input types, setting a benchmark in versatility and cognitive capacity.」のほか、「Although LLaVA-NeXT and Phi-3-Vision excel in specialized recognition tasks, they exhibit limitations in advanced reasoning and temporal sequence processing.」とのこと。
- MSの調査でもあり、Phi4でのアップデートにも期待。microsoft/phi-4 · Hugging Face
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (Fri, 22 Nov 2024 18:59:54 GMT) - MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。
LLaVA-Critic: Learning to Evaluate Multimodal Models
- LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:36:33 GMT) - マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
- プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。 提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。 当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 17:53:30 GMT) - 最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。(GPT-4oはClaude 3.5より結果が悪かった)
- リポジトリはJustice or Prejudice? Quantifying Biases in LLM-as-a-Judge (llm-judge-bias.github.io)
A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation
大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。
- A Survey on Evaluation of Multimodal Large Language Models [11.6]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文 参考訳(メタデータ) (Wed, 28 Aug 2024 13:05:55 GMT) - MLLMの評価に関するサーベイ
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (Mon, 26 Aug 2024 20:35:42 GMT) - ストーリーに対する評価のサーベイ
A Survey on Evaluating Large Language Models in Code Generation Tasks
- A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 12:56:06 GMT) - 盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
- 機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。
CoverBench: A Challenging Benchmark for Complex Claim Verification
- CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
論文 参考訳(メタデータ) (Tue, 6 Aug 2024 17:58:53 GMT) - LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
- リポジトリはgoogle/coverbench · Datasets at Hugging Face
Self-Taught Evaluators
- Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 17:57:02 GMT) - 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
- 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。
Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。
- Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 01:43:07 GMT)
- Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:58:16 GMT)
- STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:12:15 GMT)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks
- LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 14:56:13 GMT) - よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
- リポジトリはGitHub – dmg-illc/JUDGE-BENCH