- GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation [115.5]
ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。 我々は新しいベンチマークGenEval 2を導入し、原始的な視覚概念のカバレッジを改善し、より高度な構成性を実現した。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:26:56 GMT) - 「GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time—resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models.」とGenEvalの新たなバージョンの提案。
- リポジトリはGitHub – facebookresearch/GenEval2: Evaluation codes and data for GenEval2
投稿者: staka
2025年の振り返り
毎年恒例のChatGPTによる2025年の振り返り。今年はAPIを利用せずにProモードにお任せしてみた。正直怪しいところがないではないがまずまず良くまとめられているように思う。
2025年1月
- GUIエージェントのネイティブモデル路線として、UI-TARS が発表されました。OSWorld などでのスコアを示しつつ、知覚強化・統一アクション空間・熟考(System-2)・反省を伴うオンライン軌跡収集など、GUI操作を前提にした訓練設計が要点です。
- 長文書×マルチモーダル検索のベンチマーク MMDocIR(ページ/レイアウトレベル検索)が提示され、実務的な文書理解の評価軸が整理されました。
- 論文探索そのもののエージェント化として、PaSa(ツール呼び出し・論文読解・参照選択を自律実行)が提案され、合成データで訓練しても実運用に近いクエリで改善する点が示されました。
- 推論系では、o1系の考えすぎ(トークン過剰)を抑える O1-Pruner(Length-Harmonizing Fine-Tuning)が提案され、推論コスト最適化が明確なテーマとして現れています。
2025年2月
- マルチモーダル推論の評価の具体化として、LMMのCoT品質・頑健性・効率を測る MME-CoT が発表されました(数学/科学/OCR/論理/時空間/一般シーンの6領域)。
- テスト時スケーリング(推論時の計算増)をコード生成へ拡張する流れで、S*(コード生成向けハイブリッドTTS)が提案されました。推論時にどこへ計算を使うかが、数学だけでなく実装領域にも広がっていく流れです。
- RAGからメモリへという文脈では、HippoRAG2(長期記憶着想のRAG)、RAG vs GraphRAG の体系比較、A-MEM(エージェント型メモリ)がまとまって提示されました。検索強化の次の競争軸として、経験の蓄積・連想・更新が前面に出ています。
- ベンチマークの重心が実務に近い難所へ動く中で、
- SuperGPQA(285分野の大学院レベル評価)
- Sys2Bench(推論・計画における推論時計算の効果検証)
- SWE-Lancer(実在のフリーランス案件を金額換算できる形で評価)
のように、能力差が出やすい評価設計が増えました。
- GUIエージェントはPC実務へ寄せて構造化され、PC-Agent(階層型マルチエージェント、Active Perception Module、反省ベース意思決定など)が発表されました。スクリーン理解の弱さを補う設計が明示され、単発デモから運用設計へ近づいています。
- AI co-scientist は、仮説生成を計算スケーリングで加速し、研究目標に整合させつつ検証可能な仮説を提案する設計が述べられ、実験的に支持される候補(例:腫瘍抑制を示す候補)に触れています。加えて Grok-3 や GPUカーネル生成の話題も同じ流れで語られ、研究・開発ワークフローにAIが組み込まれる前提が強まっています。
2025年3月
- 月内のニュース枠では、Gemini 2.5 の話題や DeepSeek V3 のアップデートなど、主要モデルの競争状況がまとめられました(性能向上だけでなく、運用面・展開面の話題も並びます)。
- 長時間タスクを時間で測る評価として、50%成功率でのタスク完了時間(time horizon)を定義し、フロンティアモデルの到達点を定量化する提案が発表されました。実運用での任せられる範囲を議論しやすくするタイプの指標です。
- エージェントの社会実装が進む前提で、信頼性・脅威・対策を体系化する TrustAgent(サーベイ/フレームワーク)が提示されました。ツール/メモリ/ユーザ/環境などを含めた整理が中心です。
- 文書理解RAGの高度化として、MDocAgent(テキスト・画像を使い分ける複数エージェント構成)が提案され、複数ベンチマークで平均改善が示されました。
- 評価系では、多言語の上級ベンチマークMMLU-ProX(13言語、同一問題セットでの言語間比較)が発表され、言語資源量に応じた性能劣化が明確に観測されています。
- 開発運用で刺さりやすい領域として、環境構築を評価する EnvBenchが提案され、コード生成とは別の難所(依存解決・再現性)をベンチマーク化する流れが確認できます。
2025年4月
- ハルシネーション検出の限界と条件が理論枠組みで整理され、正例だけでは困難で、負例(誤り例)を明示ラベルとして学習することで状況が変わる、という論点が提示されました。
- GUIエージェントでは、学習データの作り方が具体化しました。TongUI はマルチモーダルWebチュートリアルから軌跡を作る GUI-Net(143K)を構築し、Qwen2.5-VL-3B/7B の微調整で汎用GUIエージェントを狙う設計が示されました。
- さらに Windows 実務へ寄せた UFO2(Desktop AgentOS) と UI-TARS-1.5(オープンソースのマルチモーダルエージェント)が発表され、OSレベル自動化の実装競争が明確になりました。
- 論文→実装の自動化として Paper2Code(PaperCoder)が発表され、計画→分析→コーディングの3段階で機械学習論文をコード化する流れが示されました。
- 推論データでは DeepMath-103K(検証可能な最終解を持つ数学データセット)が公開され、ルールベースRLなど学習設計へつながる形になっています。
2025年5月
- データセット蒸留の評価を見直す DD-Ranking が提案され、手法改善が訓練テクニック由来なのか、蒸留データ自体の情報量由来なのかを切り分ける狙いが示されました。
- 知識注入の現実的ベンチマークWikiDYK(WikipediaのDid You Know…由来)が発表され、双方向LMと因果LMの記憶特性の差という観点も提示されました。
- 音声領域では DCASE 2025 の 音響内容推論を含むAudio QAが発表され、キャプショニングから一歩進んだ評価設計が前に出ています。
- Visual Planning と GRITでは計画・推論をテキストだけに固定せず、画像表現で進める方向。マルチモーダル推論の設計論が登場しました。
- XRAG / NExT-Searchなど検索+生成の評価や、検索のフィードバック設計を再構築する提案。検索と生成の統合が進むほど、評価と改善ループが重要になっています。
2025年6月
- ニュースとして、Deep Research API や Gemini CLI が発表され、開発・利用形態の変化が強く意識される月になりました。同時に、Mistral-Small-3.2-24B や Hunyuan-A13B、音声の OpusLM など、公開モデルの動きも並列で示され、現場での選択肢が増える局面です。
- AI for Scienceの進捗を測るベンチマークとして、BLA Benchmark(Measuring, Tracking, and Making AI for Science Progress)が発表され、科学領域でも評価・追跡が前提になっていく流れが見えます。
- 研究プロセス全体では、From Ideation to Execution の文脈で、着想から実行までのギャップを埋めるための設計論が提示されました。AIが論文読解だけでなく、実験・検証・実装側へ広がる前提の整理です。
- さらに、閉ループ自動化の段階を越え、具体的成果(検証・発見)に接続する設計が前進しています。Intelligent Science Laboratory は閉ループ自律発見を明確に掲げ、研究の自動実行を一段進める方向を提示しました。
- AlphaEvolve は、LLMを使った自動設計・探索の方向性を強める話題として提示され、科学・工学的探索を反復可能な計算ワークフローに寄せる流れと整合します。
- 科学知識の取り扱いでは、CRITICTOOL のように 引用とツール利用を前提に科学的主張を検証する枠組みが提案され、生成だけでなく検証・反証可能性を重視する方向が明確です。
2025年7月
- RAGを検索だけでなく推論と統合する Agentic RAG + Deep Reasoning のサーベイが発表され、実装の前提知識が整理されました。
- 科学論文の概念図(スキーマ図)を理解できるかを測る MIS-QA が発表され、マルチモーダル基盤モデルの科学読解を評価する具体的なベンチマークが出ています。
- 週次ニュース(Qwen3-Coder / Intern-S1 / Step-Audio2 / TeleChat2 / Apple Intelligence など)はモデル更新が広範囲に進行。コード・音声・マルチモーダル・端末内モデルまで話題が分散。
- 言語混在が推論に与える影響として、多言語モデルの推論で言語が混ざる現象を、悪癖ではなく戦略として捉える分析がありました。
- Docopilotでは文書レベル理解のデータセットとモデルの提案。業務系マルチモーダルの重要領域が引き続き拡大しています。
2025年8月
- 自己進化型エージェント(デプロイ後に環境フィードバックで自動拡張)を体系化するサーベイが発表され、運用を前提にしたエージェント観が強まりました。
- AI Scientist/Robot Scientist のための オープンアクセス基盤 aiXiv が提案され、提案・査読・防御までを含む運用設計(RAG評価やプロンプトインジェクション耐性など)が示されました。
- SurveyGen-I は、検索→計画進化→メモリ誘導執筆を統合し、サーベイ生成を一貫性と引用カバレッジで改善する枠組みとして提示されました。
2025年9月
- 公開モデルの勢いが非常に強い月として、Qwen3-Omni、LongCat-Flash-Thinking(オープンなMoE推論)、EmbeddingGemma、Logics-Parsing などが発表されました。マルチモーダル・推論・埋め込み・文書理解まで、オープン側の幅が広がっています。
- エージェント学習では LIMI(Less is More for Agency)が提案され、データ量よりも高品質な自律行動デモの戦略的キュレーションが効く、という方向性が示されました。
- 評価・理解の基盤として、Fluid Benchmarking(適応型テストの発想でベンチマークを動的選択)や、Mambaの弱点を合成タスクで示す研究など、モデル理解と評価方法が前進しています。
2025年10月
- ニュース枠では、ChatGPT Atlas、Ring-1T、DeepSeek OCR、olmOCR 2 が発表されました。フロンティア機能の拡張と、オープン側の大型モデル・OCRツールが同時に進む構図が明確です。
- Deep Research 系の評価をドメイン特化で測る FinDeepResearch Benchmark(金融ドメイン)が発表され、汎用の深掘り能力だけでなく、業務領域別の再現性ある測定が志向されています。
- 文書理解/OCR周辺では UNIDOC-BENCH のようなベンチマークが提示され、OCR精度だけでなく文書としての取り扱い全体を評価する方向が見えます。
- GUIエージェントの学習基盤として UI-Simulator が発表され、実行環境・行動ログの整備を通じて、現実的な操作を学習させる方向が強まりました。
- 生成物の信頼性では VeriCite が提案され、引用生成・検証を人間水準へ寄せる方向が見えます。同時に、データ汚染(contamination)検出や、評価の信頼性を担保する話題も並び、ベンチマーク運用の重要性が増しています。
2025年11月
- 月内のモデル動向まとめでは、Grok 4.1、Gemini 3 Pro、GPT-5.1 Pro/Codex、Nano Banana Pro、Olmo 3、Step-Audio-R1、Omnilingual ASR が列挙され、フロンティアと公開モデル、さらに音声推論・多言語ASRまで含めた競争状況が整理されました。
- GUI領域では、Computer-Use Agents を 生成UIの評価者(judge)として使う発想が提示され、UIが人間中心からエージェント中心へ寄る可能性が示されました。
- マルチエージェントのリスクとして、協調詐欺を扱う MultiAgentFraudBench が発表され、現実の脅威モデルを評価へ落とす流れが見えます。
- 自己進化エージェント(AgentEvolver、Agent0)も発表され、ツール統合やカリキュラム共進化で性能を伸ばすアプローチが強調されています(ベースとしてQwen系が言及される点も含め、公開モデルを土台にした進化が見えます)。
- 世界モデル文脈では、動画生成モデルの推論能力を測る Gen-ViRe が提案され、生成品質だけでなく推論・計画・時空間認知などの評価軸が明確化しています。
2025年12月
- dMLLM-TTS は、Diffusion系マルチモーダルLLMに対する テスト時スケーリングの効率化として提示され、生成品質と計算効率の両立がテーマになっています。
- MMGR は、動画・画像生成を世界モデルへ近づけるために、物理・論理・空間・時間などの推論柱で評価する枠組みとして発表されました。
- GUIエージェントは、EDA(電子設計)という高付加価値領域へ拡張され、GUI-EDA ベンチマークと EDAgent が発表されました。オフィス自動化から専門領域へ、適用先が本格的に広がっています。
- LLMを暗黙の世界モデルとして扱う Word to World も提示され、強化学習・シミュレーションとLLMの接合が継続トレンドであることが示唆されます。
2025年の技術動向の要約
- エージェントは能力から運用へ
長時間タスクの時間地平評価、環境構築ベンチマーク、実案件型SWE評価など、現場の失敗点を測る指標が増え、単純なQA精度から運用性能へ重心が移っています。 - GUIエージェントは、学習データ・OS統合・専門領域対応の3点で成熟
UI-TARS/TongUI/UFO2/UI-Simulator/GUI-EDA といった流れで、(1)軌跡データ整備、(2)OSレベル自動化、(3)高付加価値業務(EDA等)への適用が揃って進みました。 - AI for Scienceは、閉ループ自動化の段階から具体的成果を狙う統合ワークフローへ
AI co-scientist のように検証可能仮説を提案し、実験的支持のある候補に触れる話題が出る一方、Intelligent Science Laboratory や CRITICTOOL、BLA Benchmark など、仮説生成→検証→評価の接続を支える要素が整ってきています。2025年は、閉ループの枠内に留まらず、発見・検証をより直接に狙える設計が現実味を帯びた年と整理できます。 - 公開モデル(オープン)の存在感が拡大し、用途が多極化
Qwen/Gemma系の派生、推論MoE、埋め込み、音声推論、超多言語ASRなど、オープン側が単なる代替ではなく、領域別に尖った選択肢として前提化しています。 - 評価(ベンチマーク)の高度化が、開発競争の前提条件になった
MME-CoT、SuperGPQA、FinDeepResearch、DeepMath、Fluid Benchmarking、汚染検出など、能力差を出すだけでなく、評価自体の信頼性を担保する方向が強まりました。
状況の解釈と示唆
- 業務導入の焦点は、モデル選定より先に評価・運用設計へ移っています。
長時間タスク、環境構築、文書OCR、ドメインDeep Researchなど、自社業務の失敗点に合うベンチマーク/テスト設計を先に持つことが、PoCの再現性と本番品質を左右します。 - GUI自動化は、汎用操作から専門業務へ拡張する局面です。
オフィス操作に留めず、設計・解析・運用など高価値領域で、データ(操作軌跡)とガバナンス(監査・安全)を揃えたうえで段階的に適用範囲を広げる戦略が合理的です。 - AI for Scienceは、研究支援ツール導入だけでなく、研究プロセスのデジタル化が成果を決めます。
仮説・実験・結果・引用を機械可読に接続できる状態(記録、API、検証可能性)を整えるほど、生成モデルの価値が閉ループを超えて具体的成果に結びつきやすくなります。 - 公開モデル活用はコスト削減だけでなく要件適合で選ぶフェーズに入りました。
埋め込み、音声、多言語、推論など、用途別にオープンが最適になるケースが増えています。機密性・規制・オンプレ要件がある場合も含め、フロンティア+オープンの併用を前提にアーキテクチャを設計するのが現実的です。
MemEvolve: Meta-Evolution of Agent Memory Systems
- MemEvolve: Meta-Evolution of Agent Memory Systems [66.1]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。 MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。 EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 14:26:14 GMT) - 「we introduce MemEvolve, a framework that facilitates the dual evolution of an agent’s experience and its memory architecture. Conceptually, MemEvolve operates as a bilevel optimization process: the inner loop performs a first-order evolution, where the agent, guided by a fixed memory system, adapts to a continuous stream of new tasks by populating its experience base. The outer loop drives a second-order evolution, meta-learning a more effective memory architecture to accelerate future learning. This allows the agent not only to evolve, but to evolve more efficiently and intelligently over time.」とMemory機構自体が適応していくタイプのフレームワークの提案。面白い一方で他のベンチマークでのスコアも気になるところ。
- リポジトリはGitHub – bingreeky/MemEvolve: MemEvolve & EvolveLab
SpatialTree: How Spatial Abilities Branch Out in MLLMs
- SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.3]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。 複雑な推論には役立ちますが、直感的な知覚を損ないます。 本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 18:59:46 GMT) - 「Spatial abilities refer to the capacity to perceive, understand, reason about, and interact with 2D and 3D space, a long-standing topic in cognitive science [13, 45, 48]. In multimodal large language models (MLLMs), these abilities form the cornerstone of Spatial Intelligence (SI), yet remain challenging to study systematically due to their inherent complexity and broad scope [31, 63].」とのことでSpatial abilitiesを測るベンチマークを構築している。4レベルは下記の通り。
- L1 Perception: This level focuses on native perception of space, capturing raw geometric and physical attributes such as size, distance, and motion, without relying on language or symbolic reasoning.
- L2 Mental Mapping: This level maps spatial perception to language, grounding spatial concepts in linguistic semantics and forming language-structured spatial memory.
- L3 Mental Simulation: This level supports internal reasoning about space, enabling mental simulation, including causal reasoning about dynamics, relational and geometric problem solving, and sequential planning for actions and navigation.
- L4 Spatial Agent: This level executes actions in space, integrating perception, language, and reasoning to interact with the environment, interpret feedback, and complete long-horizon spatial tasks.
- リポジトリはSpatialTree – How Spatial Abilities Branch Out in MLLMs、リーダーボードのモデル群が若干古い。。
dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
- dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.0]
Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。 提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。 我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (Mon, 22 Dec 2025 14:31:58 GMT) - Diffusion Multi-modal Large Language Models (dMLLMs) におけるTest Time Scaling (TTS)手法の研究。「We present the Hierarchical Trajectory Search, which optimizes efficiency, achieving O(N +T) complexity, outperforming conventional linear search baseline with O(NT) complexity. • Superior Performance. The proposed TTS framework elevates dMLLMs to match state-of-the-art generation models, significantly boosting image quality.」と効果的・効率的な手法を提案とのこと。
- リポジトリはGitHub – Alpha-VLLM/Lumina-DiMOO: Lumina-DiMOO – An Open-Sourced Multi-Modal Large Diffusion Language Model
MMGR: Multi-Modal Generative Reasoning
- MMGR: Multi-Modal Generative Reasoning [97.4]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。 MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。 主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:42:37 GMT) - 「We argue that for video generation to evolve from mere image animation to genuine world modeling (Ha & Schmidhuber, 2018; LeCun, 2022), models must acquire foundational reasoning capabilities akin to human intuitive physics and cognition. Moving beyond superficial fidelity (Huang et al , 2024; Liu et al , 2024b), we propose a formal evaluation framework asking: Can a video model reason about the physical and logical constraints of the content it generates? Drawing on theories of core knowledge and cognitive development (Spelke & Kinzler, 2007; Lake et al , 2017), we posit that robust world simulation rests on five complementary pillars of reasoning:」とのこと。5つは下記の通り。
- Physical Reasoning
- Logical Reasoning
- 3D Spatial Reasoning
- 2D Spatial Reasoning
- Temporal Reasoning
- リポジトリはZefan-Cai/MMGR · GitHub
Using GUI Agent for Electronic Design Automation
- Using GUI Agent for Electronic Design Automation [123.9]
Graphical User Interface (GUI)エージェントは、スクリーンショットをアクションシーケンスにマッピングするエンドツーエンドパラダイムを採用する。 既存のGUIエージェントは、Microsoft WordやExcelのようなコモディティソフトウェアにのみ評価される。 この作業は、GUIエージェントを一般的なオフィス自動化から、専門的で高価値なエンジニアリングドメインまで拡張する。
論文 参考訳(メタデータ) (Fri, 12 Dec 2025 14:49:32 GMT) - 「We introduce GUI-EDA, the first large-scale benchmark for GUI Agents in EDA, including 5 physical fields, 5 industry-standard CAD softwares, rendered at multiple resolutions.」とそれに対応する「EDAgent, fusing MLLM comprehension with GUI Agent execution under self-reflective validation.」の提案。
- リポジトリはhttps://github.com/aiben-ch/GUI-EDAとのこと
From Word to World: Can Large Language Models be Implicit Text-based World Models?
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 17:28:42 GMT) - 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
- リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?
FrontierCS: Evolving Challenges for Evolving Intelligence
- FrontierCS: Evolving Challenges for Evolving Intelligence [174.8]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:52:45 GMT) - 「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。
- プロジェクトサイトはFrontierCS
Step-DeepResearch Technical Report
- Step-DeepResearch Technical Report [90.5]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 16:32:27 GMT) - StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
- リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch