Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption 

  • Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption [52.0]
    そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。 特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 13:50:05 GMT)
  • 「Number the references (if they are not already). 2.Include additional task instructions to firstly identify relevant and reliable contexts. 3. Before responses, insert structured reasoning steps that enunciates the indices of the relevant contexts (Irelevant) and the indices of reliable contexts (Ireliable).」というChain of defensive thoughtの提案
  • 「In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations.」とのこと。

A Survey of AI Agent Protocols

  • A Survey of AI Agent Protocols [35.4]
    大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。 この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。 LLMエージェントの統一通信プロトコルは、これを変更できる。
    論文  参考訳(メタデータ)   (Wed, 23 Apr 2025 14:07:26 GMT)
  • 「In this paper, we provide a systematic overview of existing communication protocols for LLM agents.」とAgent間の通信プロトコルのサーベイ。
  • 様々なモチベーションで設計も様々。

The Rise of Small Language Models in Healthcare: A Comprehensive Survey 

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

  • Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.6]
    大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。 しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。 私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
    論文  参考訳(メタデータ)   (Mon, 28 Apr 2025 01:46:35 GMT)
  • 「(1) Mem0 implements a novel paradigm that extracts, evaluates, and manages salient information from conversations through dedicated modules for memory extraction and updation. The system processes a pair of messages between either two user participants or a user and an assistant. (2) Mem0 extends this foundation by incorporating graph-based memory representations, where memories are stored as directed labeled graphs with entities as nodes and relationships as edges.」というグラフ構造を活用しつつ”記憶”を管理するLLM用メモリアーキテクチャの提案。
  • プロジェクトサイトはScalable Long-Term Memory for Production AI Agents | Mem0

Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning 

  • Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
    Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Apr 2025 12:32:13 GMT)
  • 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
    • 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
  • リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

  • VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
    VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:59:53 GMT)
  • 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
  • リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

  • UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.8]
    UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。 本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。 複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 13:18:58 GMT)
  • マルチモーダルなRAGに対応するため「UniversalRAG dynamically determines the most suitable knowledge source to retrieve from, based on the modality requirement of the given query, then routes the retrieval process to the corresponding modality-specific corpus.」というアプローチ。ルーターは「Training-free Router(実験ではGPT-4o)」と「Trained Router (実験ではDistilBERT 、T5-Large)」が試されていて平均的にはTrained Routerが優勢に見える。
  • プロジェクトサイトはUniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

  • Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.3]
    DeepSeek-R1同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。 実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。
    論文  参考訳(メタデータ)   (Fri, 25 Apr 2025 02:55:21 GMT)
  • 「We introduces Nemotron-Research-Tool-N1, a series of tool-using language models trained with a rule-based reinforcement learning.」とルールベースの強化学習の有効性を確認した報告。
  • リポジトリはGitHub – NVlabs/Tool-N1

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

  • SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.6]
    セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
    論文  参考訳(メタデータ)   (Sun, 27 Apr 2025 08:45:06 GMT)
  • 「In this paper, we propose a self-play critic with the ability of detecting step-level LLMs reasoning errors. Specifically, we design a sneaky generator to produce incorrect steps and a critic to assess the correctness of each step. Through the adversarial game between these two models, we can continuously generate positive and negative samples for reinforcement learning.」というアプローチの提案。GANっぽいなと思う。
  • プロジェクトサイトはSPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

  • A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [291.0]
    本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する “フルスタック” の安全性の概念を紹介する。 我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。 本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
    論文  参考訳(メタデータ)   (Tue, 22 Apr 2025 05:02:49 GMT)
  • 安全性に関する包括的な調査
  • リポジトリにも期待大 bingreeky/full-stack-llm-safety · GitHub