The Real Barrier to LLM Agent Usability is Agentic ROI

  • The Real Barrier to LLM Agent Usability is Agentic ROI [110.3]
    大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。 我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
    論文  参考訳(メタデータ)   (Fri, 23 May 2025 11:40:58 GMT)
  • 「we argue that the key barrier to the practical usability of LLM agents lies not in model capability alone, but in maximizing the value an agent can provide, while minimizing the costs incurred during real-world use.」というごもっとな主張で、それを測るメトリクスとしてAgentic ROIを提案。「The massive user demand and the low Agentic ROI highlight a critical usability gap in everyday, mass-market applications.」はその通りと思う。
  • 色々開発している側としては「In particular, the current generation of LLM agents focuses on specialized, professional tasks such as software development [97] and scientific research [24, 65], where the typical users are already domain experts and occasional errors are acceptable. As a result, these agents remain largely out of reach for the general public, who may lack the necessary expertise.」もその通りで耳が痛い・・・

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

  • The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.7]
    我々は、オープンソースのより小さな言語モデルの集合的インテリジェンスを効果的に活用する簡単なレシピであるAvengersを紹介します。 10のオープンソースモデル(それぞれ7Bパラメータ)により、Avengersは15のデータセットのうち10でGPT-4.1を上回っている。 特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 10:29:42 GMT)
  • 7B × 10のSLMで商用モデルと競合する性能を達成とのこと。「In this paper, we introduce the Avengers, a simple yet effective framework to unite multiple smaller language models (SLMs) and challenge the dominance of proprietary large models. The core of the Avengers involves straightforward embedding, clustering, scoring, and voting, without requiring neural network training, prompt engineering, or careful architecture-specific model choices.」
  • leakというのが頭によぎらなくはないが、近年の公開モデルの性能は大きく向上していてあり得る結果ではあると思う。
  • リポジトリはGitHub – ZhangYiqun018/Avengers

lmgame-Bench: How Good are LLMs at Playing Games? / TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games 

  • TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games [9.2]
    本稿では,Large Language Models(LLM)の推論能力を評価するための新しいフレームワークとデータセットであるTurnaboutLLMを紹介する。 このフレームワークは、長い物語の文脈の中で、証言と証拠の間の矛盾を識別するLLMを処理します。 提案手法は,12種類のLLMをデータセット上で評価し,導出的推論を向上するための一般的な戦略の限界を示唆した。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 16:22:32 GMT)
  • 逆転裁判やダンガンロンパを使ったLLMの性能評価ベンチマークの提案。攻略サイトなどがLeakになっていそうだが、総合力が試されるベンチマークではあると思う。LRMが優勢な結果(まぁそうだろうと思う)。
  • リポジトリはGitHub – zharry29/turnabout_llm
  • lmgame-Bench: How Good are LLMs at Playing Games? [60.0]
    本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。 我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 06:02:55 GMT)
  • こちらもゲームを用いたベンチマーク・評価。「We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons: brittle vision perception, prompt sensitivity, and potential data contamination.」とLeakの課題が大きいことも指摘している。
  • リポジトリはGitHub – lmgame-org/GamingAgent: Computer gaming agents that run on your PC and laptops.下のhttps://github.com/lmgame-org/GamingAgent/lmgame-benchとのことだが、現状では404

Mistral Agents API, DeepSeek-R1-0528

先週は企業ニュースというよりarXiv論文の投稿が目立った週だった。更新論文抜きで3700本出ておりチェックがとても大変である。

そんな中注目はMistral AIのBuild AI agents with the Mistral Agents API | Mistral AI。OpenAIにも感じるが単純なAPI提供だけでなくAIの総合的な機能をサポートし多くの部分をクラウド側に持っていく動きは広がっていくんだろうと思う。

NVD – CVE-2025-37899How I used o3 to find CVE-2025-37899, a remote zeroday vulnerability in the Linux kernel’s SMB implementation – Sean Heelan’s BlogにあるようにAIの能力はとても上がっていて、なくてはならないものになるつつある。Agenticな動作は強力な一方でAPIとの付き合い方は悩ましいところ。

公開モデル関連の話だと、DeepSeek R1の新バージョンがリリースされたよう。上記とは正反対の公開モデルやOSSの動きも要チェック。

deepseek-ai/DeepSeek-R1-0528 · Hugging Face

WebDancer, EvolveSearch, Can Large Language Models Match the Conclusions of Systematic Reviews? 

情報検索・収集でもエージェントの活用が盛ん。

  • WebDancer: Towards Autonomous Information Seeking Agency [67.1]
    エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。 データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。 我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 17:57:07 GMT)
  • Tongyi Lab , Alibaba による情報探索エージェントの提案。ポストトレーニングを含む4ステージ構成。この手のエージェントを(簡易ではなく本気で)開発するうえで参考になる。
    • Step I: Construct diverse and challenging deep information seeking QA pairs based on the real-world web environment (§2.1); Step II: Sample high-quality trajectories from QA pairs using both LLMs and LRMs to guide the agency learning process (§2.2); Step III: Perform fine-tuning to adapt the format instruction following to agentic tasks and environments (§3.1); Step IV: Apply RL to optimize the agent’s decision-making and generalization capabilities in real-world web environments (§3.2).
  • GitHub – Alibaba-NLP/WebAgent: 🌐 WebWalker [ACL2025] & WebDancer [Preprint]
  • EvolveSearch: An Iterative Self-Evolving Search Agent [98.2]
    大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。 本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 15:50:48 GMT)
  • 上記と同じくTongyi Lab , Alibabaが関わる成果

一方で下記のような指摘もある。

  • Can Large Language Models Match the Conclusions of Systematic Reviews? [43.3]
    我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか? MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。 MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 18:58:09 GMT)
  • 「Consequently, given the same studies, frontier LLMs fail to match the conclusions of systematic reviews in at least 37% of evaluated cases.」が高いか低いかは悩ましいところだが「unlike humans, LLMs struggle with uncertain evidence and cannot exhibit skepticism when studies present design flaws」は気になる。「We identify four key factors that influence model performance on our benchmark: (1) token length, (2) dependency on treatment outcomes, (3) inability to assess the quality of evidence, and (4) lack of skepticism toward low-quality findings.」との記載があるが、「内容の評価」は難しい課題なのだと思う。
  • また、「Across all comparisons, medical finetuning fails to improve performance (even for medical-reasoning models) and, in most cases, actually degrades it. Indeed, fine-tuning without proper calibration can harm generalization, some- times resulting in worse performance than the base model [49, 50, 51].」も面白い。
  • リポジトリはGitHub – zy-f/med-evidence

Panguシリーズの論文

HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。

  • Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
    大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。 本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。 構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 15:57:08 GMT)
  • Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
    MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 16:40:21 GMT)
  • Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
    Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。 既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。 単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 14:03:02 GMT)

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis 

  • SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [90.0]
    Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。 既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。 本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:05:02 GMT)
  • 「Our approach synthesizes high-quality training data by simulating realistic user interactions in live web search environments, coupled with a multi-criteria curation strategy that optimizes the diversity and quality of input and output side.」、小規模なデータでも改善幅が大きいとのこと。
  • プロジェクトサイトはGitHub – RUCAIBox/SimpleDeepSearcher: SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

  • Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers [11.2]
    ポストジェネレーションは科学コミュニケーションにおいて不可欠だが難しい課題である。 ポスター生成のための最初のベンチマークとメトリクススイートを紹介する。 PosterAgentはトップダウンのビジュアルインザループマルチエージェントパイプラインである。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 17:58:49 GMT)
  • ポスター生成の研究
  • リポジトリはPaper2Poster

下記も近い研究成果、かつては非常に難しいと思われていたタスクがかなりできそうになっている。

  • P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark [27.6]
    高品質なHTMLレンダリングの学術ポスターを生成するLLMベースのマルチエージェントフレームワークであるP2Pを紹介する。 P2Pは、ビジュアル要素処理、コンテンツ生成、および専用のチェッカーモジュールと統合された最後のポスターアセンブリーの3つの特殊エージェントを使用している。 P2PEvalは121枚の紙とポストのペアと2つの評価手法を組み合わせた総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 09:06:05 GMT)
  • リポジトリはGitHub – multimodal-art-projection/P2P: P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark