WebDancer, EvolveSearch, Can Large Language Models Match the Conclusions of Systematic Reviews? 

情報検索・収集でもエージェントの活用が盛ん。

  • WebDancer: Towards Autonomous Information Seeking Agency [67.1]
    エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。 データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。 我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 17:57:07 GMT)
  • Tongyi Lab , Alibaba による情報探索エージェントの提案。ポストトレーニングを含む4ステージ構成。この手のエージェントを(簡易ではなく本気で)開発するうえで参考になる。
    • Step I: Construct diverse and challenging deep information seeking QA pairs based on the real-world web environment (§2.1); Step II: Sample high-quality trajectories from QA pairs using both LLMs and LRMs to guide the agency learning process (§2.2); Step III: Perform fine-tuning to adapt the format instruction following to agentic tasks and environments (§3.1); Step IV: Apply RL to optimize the agent’s decision-making and generalization capabilities in real-world web environments (§3.2).
  • GitHub – Alibaba-NLP/WebAgent: 🌐 WebWalker [ACL2025] & WebDancer [Preprint]
  • EvolveSearch: An Iterative Self-Evolving Search Agent [98.2]
    大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。 本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 15:50:48 GMT)
  • 上記と同じくTongyi Lab , Alibabaが関わる成果

一方で下記のような指摘もある。

  • Can Large Language Models Match the Conclusions of Systematic Reviews? [43.3]
    我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか? MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。 MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 18:58:09 GMT)
  • 「Consequently, given the same studies, frontier LLMs fail to match the conclusions of systematic reviews in at least 37% of evaluated cases.」が高いか低いかは悩ましいところだが「unlike humans, LLMs struggle with uncertain evidence and cannot exhibit skepticism when studies present design flaws」は気になる。「We identify four key factors that influence model performance on our benchmark: (1) token length, (2) dependency on treatment outcomes, (3) inability to assess the quality of evidence, and (4) lack of skepticism toward low-quality findings.」との記載があるが、「内容の評価」は難しい課題なのだと思う。
  • また、「Across all comparisons, medical finetuning fails to improve performance (even for medical-reasoning models) and, in most cases, actually degrades it. Indeed, fine-tuning without proper calibration can harm generalization, some- times resulting in worse performance than the base model [49, 50, 51].」も面白い。
  • リポジトリはGitHub – zy-f/med-evidence

Panguシリーズの論文

HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。

  • Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
    大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。 本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。 構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 15:57:08 GMT)
  • Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
    MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 16:40:21 GMT)
  • Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
    Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。 既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。 単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 14:03:02 GMT)

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis 

  • SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [90.0]
    Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。 既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。 本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:05:02 GMT)
  • 「Our approach synthesizes high-quality training data by simulating realistic user interactions in live web search environments, coupled with a multi-criteria curation strategy that optimizes the diversity and quality of input and output side.」、小規模なデータでも改善幅が大きいとのこと。
  • プロジェクトサイトはGitHub – RUCAIBox/SimpleDeepSearcher: SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

  • Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers [11.2]
    ポストジェネレーションは科学コミュニケーションにおいて不可欠だが難しい課題である。 ポスター生成のための最初のベンチマークとメトリクススイートを紹介する。 PosterAgentはトップダウンのビジュアルインザループマルチエージェントパイプラインである。
    論文  参考訳(メタデータ)   (Tue, 27 May 2025 17:58:49 GMT)
  • ポスター生成の研究
  • リポジトリはPaper2Poster

下記も近い研究成果、かつては非常に難しいと思われていたタスクがかなりできそうになっている。

  • P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark [27.6]
    高品質なHTMLレンダリングの学術ポスターを生成するLLMベースのマルチエージェントフレームワークであるP2Pを紹介する。 P2Pは、ビジュアル要素処理、コンテンツ生成、および専用のチェッカーモジュールと統合された最後のポスターアセンブリーの3つの特殊エージェントを使用している。 P2PEvalは121枚の紙とポストのペアと2つの評価手法を組み合わせた総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 09:06:05 GMT)
  • リポジトリはGitHub – multimodal-art-projection/P2P: P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark

DD-Ranking: Rethinking the Evaluation of Dataset Distillation

  • DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.3]
    本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。 DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 16:19:50 GMT)
  • データセット蒸留に対するベンチマークの提案。「It aims to provide a fair evaluation scheme for DD methods that can decouple the impacts from knowledge distillation and data augmentation to reflect the real informativeness of the distilled data. Under the finding that the test accuracy no longer fits the need for fair and comprehensive evaluation, we design new metrics for both the label representation and data augmentation.」とのこと。モチベーションの一つになっているものだが「DD-Ranking demonstrate that previous performance improvements commonly originate from the enhanced model training techniques instead of the distilled dataset.」という指摘も興味深い。
  • リポジトリはGitHub – NUS-HPC-AI-Lab/DD-Ranking: Data distillation benchmark

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection

  • Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection [48.2]
    人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。 WikiDYKはウィキペディアの「Did You Know…」エントリから最近追加された人文的な事実を活用する。 WikiDYKには12,290の事実と77,180の質問が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 May 2025 08:39:05 GMT)
  • 「Our extensive experiments reveal a critical limitation: under continued pre-training, Causal Language Models (CLMs) exhibit significantly weaker knowledge memorization compared to Bidirectional Language Models (BiLMs). To address this gap, we proposed a modular collaborative framework that integrates BiLMs as dynamic external knowledge repositories with LLMs.」とのこと。今はCausal LM全盛という感じだが、BiLMの活用はありえるのだろうか。速度的な問題次第・・・?
  • リポジトリはGitHub – zhang-yu-wei/WikiDYK

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

  • Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
    本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。 開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。 この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 09:04:16 GMT)
  • Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
  • リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face

Generative AI for Autonomous Driving: Frontiers and Opportunities 

  • Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6]
    この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。 まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。 我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 17:59:20 GMT)
  • 生成AI&自動運転のサーベイ。プレイヤーもタスクも多い領域。
  • リポジトリはGitHub – taco-group/GenAI4AD: a comprehensive and critical synthesis of the emerging role of GenAI across the autonomous driving stack

Visual Planning: Let’s Think Only with Images

  • Visual Planning: Let’s Think Only with Images [30.7]
    我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。 そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。 このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 16:17:22 GMT)
  • 「By enabling models to operate entirely through visual state transitions without textual mediation, we demonstrate that purely visual representations can lead to more effective and intuitive planning,」とのこと。テキストは強力だが万能というわけではなくタスクによっては計画レベルで画像が有効なことがあるのは納得感がある。とても面白い。GRITでも思ったが画像の力を使っていくアプローチはとても有望に思える。
  • リポジトリはGitHub – yix8/VisualPlanning: Visual Planning: Let’s Think Only with Images
  • GRIT: Teaching MLLMs to Think with Images [22.7]
    Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。 GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。 GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 17:54:49 GMT)
  • プロジェクトサイトはGRIT: Teaching MLLMs to Think with Images

Think Only When You Need with Large Hybrid-Reasoning Models 

  • Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
    LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。 実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
    論文  参考訳(メタデータ)   (Wed, 21 May 2025 05:17:34 GMT)
  • LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
  • LHRMという略語が定着する可能性があるのかは若干気になる。
  • リポジトリはAdvancing AI for Humanity
  • Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
    大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。 この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。 本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
    論文  参考訳(メタデータ)   (Tue, 20 May 2025 16:53:40 GMT)
  • 「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
  • リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning