DREAM: Deep Research Evaluation with Agentic Metrics
DREAM: Deep Research Evaluation with Agentic Metrics [21.6] 本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。 DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。 制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。 論文参考訳(メタデータ) (Sat, 21 Feb 2026 19:14:31 GMT)
「DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes.」とファクトチェックを思い出す評価アプローチ。「We demonstrate that current LLM-as-a-judge and reference-based benchmarks are often blinded by surface-level fluency and citation alignment, failing to detect deep-seated defects in factual correctness, temporal validity, and logical reasoning.」はそうだろうと思う。