Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

  • Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.9]
    大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。 システム1推論は計算効率が良いが、最適以下の性能をもたらす。 システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
    論文  参考訳(メタデータ)   (Mon, 31 Mar 2025 17:58:07 GMT)
  • 「In this survey, we provide a comprehensive analysis of reasoning economy in both the post-training and test-time inference stages of LLMs, encompassing」というサーベイ。
  • リポジトリはGitHub – DevoAllen/Awesome-Reasoning-Economy-Papers: Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

A Survey on Unlearnable Data 

  • A Survey on Unlearnable Data [27.3]
    Unlearnable Data(ULD)は、機械学習モデルが特定のデータから意味のあるパターンを学ぶのを防ぐ革新的な防御技術として登場した。 我々は、異なるUDLアプローチを比較し、比較し、その強み、制限、および非学習性、不受容性、効率、堅牢性に関連するトレードオフを分析します。 本稿では, モデル劣化に伴う摂動不感のバランスや, ULD生成の計算複雑性など, 重要な課題について論じる。
    論文  参考訳(メタデータ)   (Sun, 30 Mar 2025 17:41:30 GMT)
  • 「Unlearnable Data (ULD) refers to a category of data that has been deliberately modified through subtle perturbations, preventing models from effectively learning useful representations during training while maintaining perceptual quality for human observers.」のサーベイ。

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems 

  • Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.5]
    大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。 これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。 この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
    論文  参考訳(メタデータ)   (Mon, 31 Mar 2025 18:00:29 GMT)
  • 「This survey provides a comprehensive overview, framing intelligent agents within a modular, brain-inspired architecture that integrates principles from cognitive science, neuroscience, and computational research.」という非常に包括的なサーベイ。
  • リポジトリはGitHub – FoundationAgents/awesome-foundation-agents: About Awesome things towards foundation agents. Papers / Repos / Blogs / …

Towards Trustworthy GUI Agents: A Survey

  • Towards Trustworthy GUI Agents: A Survey [64.6]
    本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。 敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。 GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
    論文  参考訳(メタデータ)   (Sun, 30 Mar 2025 13:26:00 GMT)
  • GUIエージェントの信頼性に関するサーベイ。整理軸は「Security」、「Reliability」、「Explainability」、「Ethical Alignment」、「Evaluation methodologies」

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

  • Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3]
    大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。 本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。 私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
    論文  参考訳(メタデータ)   (Thu, 27 Mar 2025 12:50:17 GMT)
  • LLMによって急速に広がるエージェントのサーベイ。「Despite remarkable progress, significant challenges remain, including scalability limitations, memory constraints, reliability concerns, and inadequate evaluation frameworks.」
  • リポジトリはGitHub – luo-junyu/Awesome-Agent-Papers: Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models 

  • Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.3]
    大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:38 GMT)
  • overthinkingの防止、効率的な推論に関するサーベイ
  • リポジトリはGitHub – Eclipsess/Awesome-Efficient-Reasoning-LLMs

Survey on Evaluation of LLM-based Agents 

  • Survey on Evaluation of LLM-based Agents [28.9]
    LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。 本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
    論文  参考訳(メタデータ)   (Thu, 20 Mar 2025 17:59:23 GMT)
  • 「We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) applicationspecific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents.」とエージェントの評価に関するサーベイ

A Survey on Trustworthy LLM Agents: Threats and Countermeasures

  • A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.2]
    大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。 本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 08:42:05 GMT)
  • LLM based Agentを intrinsic (brain, memory, and tool) とextrinsic (user, agent, and environment)な側面から見た信頼性のサーベイ 
  • リポジトリはGitHub – Ymm-cll/TrustAgent

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 

  • Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [11.3]
    ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。 まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。 次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 17:35:03 GMT)
  • LRMでキーとなっているLong Chain of thoughtのサーベイ。「We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms.」と(通常の)Short CoTと Long CoTを分けている。
  • リポジトリはTowards Reasoning Era: A Survey of Long Chain-of-Thought