- ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 04:11:16 GMT) - LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
- リポジトリはGitHub – SalesforceAIResearch/ToolLibGen
タグ: LRM
AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning
- AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.6]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。 基礎モデル(FM)における2つのボトルネックに対処することを目的としている。 AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (Sun, 05 Oct 2025 15:42:24 GMT) - Tool-augmented reasoningのためのフレームワーク。Appollo計画と共通点があるという主張は若干謎ではある、
- リポジトリはGitHub – tmlr-group/AlphaApollo: [arXiv:2510.06261] “AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning”
Gemini 2.5 Computer Use, OpenAI Dev Day, RWKV-8, Mamba3
先週の注目ニュースはGemini 2.5 computer use(Introducing the Gemini 2.5 Computer Use model)、OpenAI Dev Dayの様々なサービスの発表(個人的に注目はApps SDK、Agents – OpenAI API、OpenAI Guardrails Python)だった。各社基盤モデルだけでなくビジネスの領域に踏み込んでくる感は継続している。
アーキテクチャ面だとRWKV-8の順調そうな投稿(XユーザーのBlinkDLさん: 「The new mechanism in RWKV-8 “Heron” 🪶 is named ROSA (acronym, note SA ≠ Self-Attention here) 🌹 ROSA is compromise-free: we get efficient, scalable, genuine infinite ctx, by applying some beautiful algorithms. https://t.co/meM1MRtIhI」 / X、XユーザーのBlinkDLさん: 「RWKV-8 ROSA 🌹 mechanism: neurosymbolic infinite-range lossless information propagator beyond attention, enabling LLMs to invent their own inner monologue languages. First step towards scalable post-neural methods, for a new era in AI 🌌 https://t.co/kAcc7YfKeo」 / X)、Mamba3(著者不明だがMamba-3: Improved Sequence Modeling using State Space Principles | OpenReview)にも注目という感じ。SSMとTransformerハイブリッドの小型推論モデル、ai21labs/AI21-Jamba-Reasoning-3B · Hugging Faceも高性能そうでSSMの発展には期待が大きい。
毎年恒例の🪩 The State of AI Report 2025 🪩をみつつ(一部微妙な記載もあるが)研究の進展が速いのと、応用領域が広がっていることを感じている。International Astronomy & Astrophysics OlympiadでLLMが好成績をおさめる報告も興味深い。
- Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad [43.5]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。 平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 16:58:47 GMT)
Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning
- Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。 M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 17:55:02 GMT) - 「We propose M-Thinker, which both achieves the input-output language consistency with a Language Consistency reward and enhances the multilingual reasoning performance with a Cross-lingual Thinking Alignment reward.」と入力・思考・出力で言語を一致させる手法の提案。性能向上につながる場合もありそうなのが興味深い。
- リポジトリはGitHub – XZhang00/M-Thinker: Code for “Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning”.
Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0
先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介、SimVS: Simulating World Inconsistencies for Robust View Synthesis – arXiv最新論文の紹介、How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。
AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。
GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities、deepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。
- HunyuanImage 3.0 Technical Report [108.4]
HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
論文 参考訳(メタデータ) (Sun, 28 Sep 2025 16:14:10 GMT) - 非常に強力な画像系公開モデル
- モデルはtencent/HunyuanImage-3.0 · Hugging Face
MuSLR: Multimodal Symbolic Logical Reasoning
- MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
論文 参考訳(メタデータ) (Tue, 30 Sep 2025 06:42:20 GMT) - Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
- 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
- リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.8]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。 このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 17:52:06 GMT) - 「By mapping natural language, DNA/RNA/protein sequences, molecular strings, and materials representations into a shared backbone via task-aware tokenization and consistent input–output schemas, the model moves beyond narrow, discipline-specific solutions and limited task menus.」、と自然言語なLLMと科学的記述を統合する取り組み。「The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence–text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning.」と正面突破なアプローチ。
- リポジトリはGitHub – open-sciencelab/SciReason、SciReason (SciReason)
A Survey of Reinforcement Learning for Large Reasoning Models
- A Survey of Reinforcement Learning for Large Reasoning Models [98.6]
大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (Wed, 10 Sep 2025 17:59:43 GMT) - LRMのための強化学習に関するサーベイだが、「To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area.」と目的にASIとは言っているのが興味深い。
- リポジトリはGitHub – TsinghuaC3I/Awesome-RL-for-LRMs: A Survey of Reinforcement Learning for Large Reasoning Models
MobileLLM-R1, APERTUS
先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。
- Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 17:59:21 GMT) - オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
- モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face
A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models
- A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models [22.7]
時系列推論は時間を第一級軸として扱い、中間証拠を直接答えに組み込む。 本調査では,一段階における直接推論,明示的な中間体による線形連鎖推論,分岐構造推論という3つのファミリーによるトポロジの推論によって,問題を定義し,文献を整理する。
論文 参考訳(メタデータ) (Mon, 15 Sep 2025 04:39:50 GMT) - 時系列推論に関するサーベイ。
- Reasoning Topology — execution structures:
- Direct reasoning (single step)
- Linear chain reasoning (sequential intermediate steps)
- Branch-structured reasoning (exploration, feedback, and aggregation)
- Primary Objective — the main intent:
- Traditional time series analysis (forecasting, classification, anomaly detection, segmentation)
- Explanation and understanding (temporal QA, diagnostics, structure discovery)
- Causal inference and decision making (counterfactuals, policy evaluation, decision support)
- Time series generation (simulation, editing, synthesis)
- Reasoning Topology — execution structures:
- リポジトリはGitHub – blacksnail789521/Time-Series-Reasoning-Survey: A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models