The Rise of Small Language Models in Healthcare: A Comprehensive Survey 

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

  • Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.6]
    大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。 しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。 私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
    論文  参考訳(メタデータ)   (Mon, 28 Apr 2025 01:46:35 GMT)
  • 「(1) Mem0 implements a novel paradigm that extracts, evaluates, and manages salient information from conversations through dedicated modules for memory extraction and updation. The system processes a pair of messages between either two user participants or a user and an assistant. (2) Mem0 extends this foundation by incorporating graph-based memory representations, where memories are stored as directed labeled graphs with entities as nodes and relationships as edges.」というグラフ構造を活用しつつ”記憶”を管理するLLM用メモリアーキテクチャの提案。
  • プロジェクトサイトはScalable Long-Term Memory for Production AI Agents | Mem0

Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning 

  • Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.7]
    Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。 Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
    論文  参考訳(メタデータ)   (Thu, 24 Apr 2025 12:32:13 GMT)
  • 「We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL.」というベンチマーク。
    • 「plasticity loss, a phenomenon in which neural networks in RL agents gradually lose their ability to adapt and incorporate new information as training progresses (Dohare et al , 2024; Klein et al , 2024), thus significantly impeding the development of truly lifelong learning agents (Lyle and Pascanu, 2024).」
  • リポジトリはGitHub – RLE-Foundation/Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning.

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

  • VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
    VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:59:53 GMT)
  • 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
  • リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

  • UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.8]
    UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。 本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。 複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 13:18:58 GMT)
  • マルチモーダルなRAGに対応するため「UniversalRAG dynamically determines the most suitable knowledge source to retrieve from, based on the modality requirement of the given query, then routes the retrieval process to the corresponding modality-specific corpus.」というアプローチ。ルーターは「Training-free Router(実験ではGPT-4o)」と「Trained Router (実験ではDistilBERT 、T5-Large)」が試されていて平均的にはTrained Routerが優勢に見える。
  • プロジェクトサイトはUniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

  • Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.3]
    DeepSeek-R1同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。 実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。
    論文  参考訳(メタデータ)   (Fri, 25 Apr 2025 02:55:21 GMT)
  • 「We introduces Nemotron-Research-Tool-N1, a series of tool-using language models trained with a rule-based reinforcement learning.」とルールベースの強化学習の有効性を確認した報告。
  • リポジトリはGitHub – NVlabs/Tool-N1

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

  • SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.6]
    セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
    論文  参考訳(メタデータ)   (Sun, 27 Apr 2025 08:45:06 GMT)
  • 「In this paper, we propose a self-play critic with the ability of detecting step-level LLMs reasoning errors. Specifically, we design a sneaky generator to produce incorrect steps and a critic to assess the correctness of each step. Through the adversarial game between these two models, we can continuously generate positive and negative samples for reinforcement learning.」というアプローチの提案。GANっぽいなと思う。
  • プロジェクトサイトはSPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

  • A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [291.0]
    本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する “フルスタック” の安全性の概念を紹介する。 我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。 本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
    論文  参考訳(メタデータ)   (Tue, 22 Apr 2025 05:02:49 GMT)
  • 安全性に関する包括的な調査
  • リポジトリにも期待大 bingreeky/full-stack-llm-safety · GitHub

DeepCritic: Deliberate Critique with Large Language Models

  • DeepCritic: Deliberate Critique with Large Language Models [77.6]
    我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 17:03:17 GMT)
  • Deepな批評を行うモデルの提案。「In Stage 1, we first utilize Qwen2.5-72B-Instruct to generate an initial step-wise critique for each step in the solution, followed by an in-depth critique of the initial critique.」、「In Stage 2, we perform RL to the SFT model on either existing human-annotated data or auto-labeled data via Monte Carlo sampling-based correctness estimation, to further stimulate the critique ability of the critic.」の2ステージ構成で構築。Criticモデルは他のモデル出力の修正にも有効なことが知られているが「our 7B critique model is also capable of supervising and correcting the outputs of a 72B generator, demonstrating a potential of weak-to-strong supervision」は興味深い。
  • リポジトリはGitHub – RUCBM/DeepCritic: Official repository for paper “DeepCritic: Deliberate Critique with Large Language Models”

Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B

先週はオープンなモデルのニュースが多かった。その中でもQwen3は大きなニュースである(Qwen3: Think Deeper, Act Faster | Qwen)。MoEなQwen3-235B-A22B, Qwen3-30B-A3Bの他、denseなQwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6Bが公開されている(Qwen3 – a Qwen Collection)。ライセンスはApache-2。また、MicrosoftのPhi-4のreasoningモデル公開(Showcasing Phi-4-Reasoning: A Game-Changer for AI Developers | Microsoft Community Hubhuggingface)も注目。

SLMの発表も多く、XiaomiによりMiMo(GitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining)、Ai2によるOLMo release notes | Ai2が興味深い。JetBrainによるMellum(Mellum Goes Open Source: A Purpose-Built LLM for Developers, Now on Hugging Face | The JetBrains Blog)は「Mellum doesn’t try to know everything. It’s designed to do one thing really well: code completion. We call it a focal model – built with purposeful depth and not concerned with chasing breadth.」とある通り特化型。現状、Mellumは十分な性能とは言い難いものの、SLMを特化して強化する、コスパを上げる方向は有望。DeepseekProver-V2の671Bは凄いが、7Bのうまい活用のような組み合わせも重要になると思う。

  • Phi-4-reasoning Technical Report [42.5]
    Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。 我々はPhi-4-reasoning-plusを開発した。 どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 05:05:09 GMT)
  • Phi-4シリーズのLRM
  • Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1]
    CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。 本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 00:04:35 GMT)
  • SLMを利用したreasoningモデルの構築。「The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e g , outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-DistillLlama-8B by 7.7 points on Math-500.」と効果を確認とのこと。
  • 小型のモデルであってもreasoningが有効という興味深い結果。
  • DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition [24.5]
    我々はDeepSeek-Prover-V2を紹介します。 このモデルは、ニューラル定理の証明における最先端のパフォーマンスを達成し、ミニF2Fテストで88.9%のパス比に達し、PutnamBenchの658問題のうち49を解決した。 標準ベンチマークに加えて、325の形式化された問題の集合であるProverBenchを導入し、最近のAIMEコンペティションから選択された15の問題を含む評価を強化した。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 16:57:48 GMT)
  • 「We first prompt DeepSeek-V3 to generate a natural-language proof sketch while simultaneously formalizing it into a Lean statement with sorry placeholders for omitted proof details. A 7B prover model then recursively solves the decomposed subgoals. By combining these subgoal proofs, we construct a complete formal proof for the original complex problem.This composed proof is appended to DeepSeek-V3’s original chain-of-thought, creating high-quality cold-start training data for formal mathematical reasoning. 」
  • リポジトリはGitHub – deepseek-ai/DeepSeek-Prover-V2