Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning

  • Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7]
    本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。 M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 17:55:02 GMT)
  • 「We propose M-Thinker, which both achieves the input-output language consistency with a Language Consistency reward and enhances the multilingual reasoning performance with a Cross-lingual Thinking Alignment reward.」と入力・思考・出力で言語を一致させる手法の提案。性能向上につながる場合もありそうなのが興味深い。
  • リポジトリはGitHub – XZhang00/M-Thinker: Code for “Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning”.

Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0

先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介SimVS: Simulating World Inconsistencies for Robust View Synthesis  – arXiv最新論文の紹介How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。

AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。

GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilitiesdeepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。

  • HunyuanImage 3.0 Technical Report [108.4]
    HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 16:14:10 GMT)
  • 非常に強力な画像系公開モデル
  • モデルはtencent/HunyuanImage-3.0 · Hugging Face

MuSLR: Multimodal Symbolic Logical Reasoning 

  • MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
    マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 06:42:20 GMT)
  • Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
  • 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
  • リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

  • SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.8]
    我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。 このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。 i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 17:52:06 GMT)
  • 「By mapping natural language, DNA/RNA/protein sequences, molecular strings, and materials representations into a shared backbone via task-aware tokenization and consistent input–output schemas, the model moves beyond narrow, discipline-specific solutions and limited task menus.」、と自然言語なLLMと科学的記述を統合する取り組み。「The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence–text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning.」と正面突破なアプローチ。
  • リポジトリはGitHub – open-sciencelab/SciReasonSciReason (SciReason)

A Survey of Reinforcement Learning for Large Reasoning Models

  • A Survey of Reinforcement Learning for Large Reasoning Models [98.6]
    大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
    論文  参考訳(メタデータ)   (Wed, 10 Sep 2025 17:59:43 GMT)
  • LRMのための強化学習に関するサーベイだが、「To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area.」と目的にASIとは言っているのが興味深い。
  • リポジトリはGitHub – TsinghuaC3I/Awesome-RL-for-LRMs: A Survey of Reinforcement Learning for Large Reasoning Models

MobileLLM-R1, APERTUS

先週はOpenAIによるICPCの成果(https://x.com/MostafaRohani/status/1968360976379703569)などが話題になった。クローズドモデルの性能向上は本当にすごい。とはいえ、Metaによる小型モデルMobileLLM-R1(facebook/MobileLLM-R1-950M · Hugging Face)やオープンかつ権利関係にも気を使い他のモデルと競合的な性能を達成しているAPERTUS など公開モデルの取り組みも興味深い状況が続く。本当に目が離せない。

  • Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.7]
    Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。 Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。 Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
    論文  参考訳(メタデータ)   (Wed, 17 Sep 2025 17:59:21 GMT)
  • オープンかつ多言語、さらに権利関係にもかなり配慮しているモデル「The models are trained on 15T tokens from 1811 languages with retroactive respect for robots.txt and related opt outs, and with a Goldfish-style objective to curb verbatim reproduction of training text.」。性能もかなり高く、非常に興味深い。
  • モデルはswiss-ai/Apertus-70B-Instruct-2509 · Hugging Face

A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models 

  • A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models [22.7]
    時系列推論は時間を第一級軸として扱い、中間証拠を直接答えに組み込む。 本調査では,一段階における直接推論,明示的な中間体による線形連鎖推論,分岐構造推論という3つのファミリーによるトポロジの推論によって,問題を定義し,文献を整理する。
    論文  参考訳(メタデータ)   (Mon, 15 Sep 2025 04:39:50 GMT)
  • 時系列推論に関するサーベイ。
    • Reasoning Topology — execution structures:
      • Direct reasoning (single step)
      • Linear chain reasoning (sequential intermediate steps)
      • Branch-structured reasoning (exploration, feedback, and aggregation)
    • Primary Objective — the main intent:
      • Traditional time series analysis (forecasting, classification, anomaly detection, segmentation)
      • Explanation and understanding (temporal QA, diagnostics, structure discovery)
      • Causal inference and decision making (counterfactuals, policy evaluation, decision support)
      • Time series generation (simulation, editing, synthesis)
  • リポジトリはGitHub – blacksnail789521/Time-Series-Reasoning-Survey: A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

  • Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.0]
    テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。 本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。 以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 16:28:25 GMT)
  • 「To summarize, while test-time scaling in reasoning models has led to strong performance in many domains, it is not yet effective for knowledge-intensive tasks. Increasing inference time does not consistently improve factual accuracy, and contrary to expectations, it can even increase hallucinations.」とのこと。LRMを使っていて感じていることと整合的。
  • リポジトリはGitHub – XuZhao0/tts-knowledge: Code and data for “Test-time scaling in reasoning models is not effective for knowledge-intensive tasks yet”

Explain Before You Answer: A Survey on Compositional Visual Reasoning

  • Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
    構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
    論文  参考訳(メタデータ)   (Sun, 24 Aug 2025 11:01:51 GMT)
  • Compositional visual reasoning に関するサーベイ。

Qwen3-Max, K2-Instruct-0905, LongCat-Flash, Dream-Coder 7B, Kwai Keye-VL 1.5

先週もLLM/LRM界隈のニュースは多かった。Qwen3系最大構成のQwen3 Maxの公開(XユーザーのQwenさん: 「Big news: Introducing Qwen3-Max-Preview (Instruct) — our biggest model yet, with over 1 trillion parameters! 🚀 Now available via Qwen Chat & Alibaba Cloud API. Benchmarks show it beats our previous best, Qwen3-235B-A22B-2507. Internal tests + early user feedback confirm: https://t.co/7vQTfHup1Z」 / XModels and pricing – Alibaba Cloud Model Studio – Alibaba Cloud Documentation Center)、Kimi K2のアップデート(XユーザーのKimi.aiさん: 「Kimi K2-0905 update 🚀 – Enhanced coding capabilities, esp. front-end & tool-calling – Context length extended to 256k tokens – Improved integration with various agent scaffolds (e.g., Claude Code, Roo Code, etc) 🔗 Weights & code: https://t.co/83sQekosr9 💬 Chat with new Kimi https://t.co/mkOuBMwzpw」 / Xmoonshotai/Kimi-K2-Instruct-0905 · Hugging Face)やLongCat-Flashの他、Dream-Coder 7B、Kwai Keye-VL 1.5など小規模でもユニークなモデルも発表されている。

Introduction – Agent Client ProtocolGitHub – zed-industries/agent-client-protocol: A protocol for connecting any editor to any agent)といったプロトコルの提案など周辺領域にも目が離せない。

  • LongCat-Flash Technical Report [165.7]
    LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。 計算効率と高度なエージェント能力の両方のために設計されている。 30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 10:05:45 GMT)
  • 560B MoE構成、「As a non-thinking model, LongCat-Flash achieves performance comparable to state-of-the-art non-thinking models, including DeepSeek-V3.1 [DeepSeek-AI et al , 2025] and Kimi-K2 [Team et al , 2025], while using fewer parameters and offering faster inference speed. Specifically, LongCat-Flash scores 86.5 on ArenaHard-V2, 39.5 on TerminalBench, and 67.7 on τ 2-Bench, demonstrating robust capabilities in general domains, coding, and agentic tool use.」
  • リポジトリはGitHub – meituan-longcat/LongCat-Flash-Chat
  • Dream-Coder 7B: An Open Diffusion Language Model for Code [99.1]
    そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。 厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 05:30:56 GMT)
  • コーディングタスク強化の拡散モデル
  • リポジトリはGitHub – DreamLM/Dream-Coder
  • Kwai Keye-VL 1.5 Technical Report [91.3]
    本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。 まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。 次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。 第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
    論文  参考訳(メタデータ)   (Mon, 01 Sep 2025 15:46:58 GMT)
  • 「Keye-VL-1.5-8B establishes new state-of-the-art performance among models of similar scale, demonstrating superior results on video-centric benchmarks while maintaining competitive performance on general multimodal and reasoning tasks.」とビデオを扱えるモデル
  • リポジトリはGitHub – Kwai-Keye/Keye