A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models 

  • A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models [35.5]
    Long-CoT推論は、言語理解、複雑な問題解決、コード生成など、さまざまなタスクに進歩している。 信頼に値する推論の5つの中核的な側面 – 真理性、安全性、堅牢性、公正性、プライバシ – に重点を置いています。 全体として、推論技術は、幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデルは、安全性、堅牢性、プライバシにおける同等またはそれ以上の脆弱性に悩まされることが多い。
    論文  参考訳(メタデータ)   (Thu, 04 Sep 2025 04:12:31 GMT)
  • 信頼性に関するものだが、推論に軸足をおいたサーベイ。
  • リポジトリはGitHub – ybwang119/Awesome-reasoning-safety: This repo is for the safety topic, including attacks, defenses and studies related to reasoning and RL

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey 

  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
    エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 17:46:26 GMT)
  • 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
  • リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Explain Before You Answer: A Survey on Compositional Visual Reasoning

  • Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
    構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
    論文  参考訳(メタデータ)   (Sun, 24 Aug 2025 11:01:51 GMT)
  • Compositional visual reasoning に関するサーベイ。

Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol 

  • Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.8]
    大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。 その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。 本稿では,LLMアプリケーションを3層アーキテクチャに分解する:システムシェル層、プロンプトオーケストレーション層、およびLLM推論コア
    論文  参考訳(メタデータ)   (Thu, 28 Aug 2025 13:00:28 GMT)
  • LLMを用いたソフトウェアに対するテストのサーベイ
  • conclusionに「A key insight is that LLM application testing is neither a mere extension of traditional software testing nor a straightforward application of AI-security techniques.」とある通り、LLM活用のソフトウェアは動的・確率的な動作にならざるを得ないためテスト手法はかなり変わるよう。

A Survey on Large Language Model Benchmarks

  • A Survey on Large Language Model Benchmarks [45.0]
    一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。 ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。 ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 08:43:35 GMT)
  • 「We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain- specific, and target-specific.」とベンチマークのサーベイ
  • LLMの動きを広範に知るため様々なベンチマークが作られており、これら調査は非常にありがたい。

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery 

  • From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [90.6]
    エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。 この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 18 Aug 2025 05:25:54 GMT)
  • 最近流行りの科学のためのAIに関するサーベイ。「(i) trace the evolution of AI for Science, (ii) identify five core capabilities underpinning scientific agency, (iii) model discovery as a dynamic four-stage workflow, (iv) review applications across life sciences, chemistry, materials science, and physics, and (v) synthesize key challenges and future opportunities. This work establishes a domain-oriented synthesis of autonomous scientific discovery and positions Agentic Science as a structured paradigm for advancing AI-driven research.」と広範な内容。
  • プロジェクトサイトはFrom AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery、リポジトリはGitHub – AgenticScience/Awesome-Agent-Scientists

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 

  • A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
    既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 10 Aug 2025 16:07:32 GMT)
  • 自己進化に関するサーベイ。AGIが近づいている感がある。
  • リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents

SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing

  • SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing [4.2]
    SurveyGen-Iは、粗大な検索、適応計画、メモリ誘導生成を組み合わせた自動サーベイ生成フレームワークである。 4つの科学的領域にわたる実験では、SurveyGen-Iはコンテンツ品質、一貫性、引用カバレッジにおいて、従来よりも一貫して優れていた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 00:03:46 GMT)
  • 凝った構成のサーベイ生成フレームワークの提案
    • (1) Literature Retrieval (LR) performs multi- stage literature retrieval at both survey and subsec- tion levels.
    • (2) Structure Planning with Dynamic Outline Evolution (PlanEvo) generates a hierarchical outline and a dependency-aware writing plan, and dynamically updates both during generation to ensure cross-subsection consistency of the survey.
    • (3) CaM-Writing generates each subsection with strong content consistency and rich citation coverage, combining citation-traced retrieval to recover influential references, memory-guided skeleton planning for content consistency, and best-of-N draft selection to ensure high-quality generation.
  • リポジトリはGitHub – SurveyGens/SurveyGen-I

A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models 

  • A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [50.0]
    トークン・バイ・トークン生成のボトルネックを突破することを目的とした並列テキスト生成技術。 既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類する。 速度、品質、効率の観点から理論上のトレードオフを評価します。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 07:56:04 GMT)
  • 主として高速化を目的としたParallel Text Generationのサーベイ。
  • AR-based、Non-AR-basedの両面での調査となっている。