Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

  • Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.3]
    我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。 様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
    論文  参考訳(メタデータ)   (Wed, 14 Jan 2026 18:59:59 GMT)
  • 「How to preserve reasoning capability while enabling compact representations that properly capture essential spatial-temporal dynamics remains a crucial challenge for reasoning VLA models. In this paper, we propose Fast-ThinkAct, an efficient embodied reasoning framework for Vision-Language-Action tasks that achieves compact yet expressive planning through verbalizable latent reasoning.」と推論過程をコンパクトにするフレームワークの提案
  • プロジェクトサイトはFast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models 

  • SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.9]
    LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。 私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。 我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 03:41:06 GMT)
  • LRMを対象とした安全性ベンチマーク評価。
  • 「For small models (e g , Qwen-3- 0.6B), Thinking increases risk, consistent with prior observations that reasoning traces can introduce hazards. For mid-scale models, however, Thinking yields safer behavior—lower risk and execution levels and higher refusal rates—suggesting that structured reasoning can be leveraged to reduce exposure when model capacity is sufficient. At very large scale, this pattern reverses: the MoE-based Qwen-235B shows higher risk levels under Thinking, reflecting an “always-help” tendency that makes unsafe responses more actionable. In short, reasoning improves safety up to a point; beyond that, greater capability without stronger alignment can raise exposure.」とモデルサイズとの関係が興味深い。

Claude Opus 4.5, DeepSeekMath-V2, DR Tulu, Qwen3-VL, HunyuanVideo 1.5

先週はOpus 4.5の発表(Introducing Claude Opus 4.5 \ Anthropic)があり、Anthropic Clodeが特にコード生成においてさすがの性能を見せた。

公開モデル関連では数学に強いDeepSeekMath-V2(deepseek-ai/DeepSeek-Math-V2 · Hugging Face)、Deep Researchに強いDR Tulu(DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2)やQwen3-VL、HunyuanVideo 1.5のテクニカルレポートに注目という状況。

  • DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2]
    ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。 ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。 我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 14:52:10 GMT)
  • 「In this paper, we introduce Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research tasks. To address the challenge of verification in long-form tasks, DR Tulu is first finetuned on high-quality, naturally occurring user data, and then trained via a new method we call Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training.」とDeepResearchに特化したモデルの提案。強化学習部分も興味深い構成。
  • リポジトリはGitHub – rlresearch/dr-tulu: Official repository for DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
  • Qwen3-VL Technical Report [153.4]
    Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。 最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。 Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
    論文  参考訳(メタデータ)   (Wed, 26 Nov 2025 17:59:08 GMT)
  • 「The Qwen3-VL framework integrates a vision encoder and a language model decoder to process multimodal inputs, including text, images, and video. The vision encoder is specifically designed to handle dynamic, native-resolution visual inputs, mapping them to visual tokens of variable length.」という構成、商用モデルと比較可能な性能、一部は上回る。
  • リポジトリはGitHub – QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

Think Visually, Reason Textually: Vision-Language Synergy in ARC / ARC Is a Vision Problem!

  • Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.2]
    ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。 画像が不正確なルールの実行によってパフォーマンスが低下するにつれて、ARC-AGIグリッドをネイティブにレンダリングする。 我々は、ARC-AGIをモダリティ整列サブタスクに分解するVLSR(Vision-Language Synergy Reasoning)と、本質的な誤り訂正のためのテキストベースの推論を視覚を利用して検証するMSSC(Modality-Switch Self-Correction)という2つの相乗的戦略を導入する。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 18:59:04 GMT)
  • 「Our analysis of the OpenAI o4-mini model reveals striking differences: vision ex- cels at rule summarization, providing a 3.0% improvement through its holistic perception of 2D spatial structures, while text excels at rule application, with vision causing a dramatic 20.5% performance drop due to imprecise element-wise manipulation. These findings demonstrate that the question is not whether to use vision or text, but rather when and how to strategically combine them.」という指摘と、「By fine-tuning separate models for visual rule summarization and textual rule application, our approach achieves a 3.5% improvement over text-only fine-tuning on the same training data, enabling small open-source models (Qwen3-8B) to surpass closed-source models like GPT-4o.」とのこと。
  • ARC Is a Vision Problem! [50.6]
    視覚パラダイム内のARCを画像から画像への変換問題として定義する。 私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
    論文  参考訳(メタデータ)   (Tue, 18 Nov 2025 18:59:49 GMT)
  • こちらは論文名の通り、「although the puzzle-like tasks in ARC are inherently visual, existing research has rarely approached the problem from a vision-centric perspective. In this work, we formulate ARC within a vision paradigm, framing it as an image-to-image translation problem.」とVisionの問題として解いて高スコアを達成。
  • プロジェクトサイトはGitHub – lillian039/VARC
  • 「It is natural to explore vision driven approaches for ARC. On the other hand, human reasoning is not confined to language or vision in isolation, but instead should integrate information across modalities. With our complementary vision-based perspective, we hope the scope of abstract reasoning will be further broadened.」との指摘はその通りだと思う。Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark – arXiv最新論文の紹介のような指摘。NanoBananaの印象的な性能などうまく統合されていくとAGIに近づいていくんだろうなという感覚がある。

Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR

先週はフロンティアモデルレベルでの激戦がよくわかる週であった。Grok 4.1(Grok 4.1 | xAI)、Gemini3 Pro(Gemini 3 Pro – Google DeepMind、GPT-5.1 Pro(XユーザーのOpenAIさん: 「GPT-5.1 Pro is rolling out today to all Pro users. It delivers clearer, more capable answers for complex work, with strong gains in writing help, data science, and business tasks.」 / X)GPT-5.1-Codex-Max(Building more with GPT-5.1-Codex-Max | OpenAI)と大きな発表が相次いだ。公式のベンチマーク結果の他、様々な方が検証を行っていて、個人的にも検証をしているが、LLM/LRMの性能アップはまだいけるのではないか、と期待の持てる結果になっている。

Googleの Nano Banana Pro(XユーザーのGoogle AIさん: 「Rolling out today we are launching Nano Banana Pro, the world’s best image model built to move beyond casual creation and into a new era of studio-quality, functional design. Nano Banana Pro enables a new level of precision and creative control, transforming the way you bring https://t.co/BsyAgkUY7X」 / X)は画像生成のレベルが1段抜けている印象がある。Geminiのマルチモーダル性能が優れている点など総合力でさすがGoogleとの印象がある今日この頃。

公開モデルでもOlmo3(XユーザーのNathan Lambertさん: 「We present Olmo 3, our next family of fully open, leading language models. This family of 7B and 32B models represents: 1. The best 32B base model. 2. The best 7B Western thinking & instruct models. 3. The first 32B (or larger) fully open reasoning model. This is a big https://t.co/dpMtRHSjRp」 / X)が出ている。32Bモデルとしては最高レベルの性能(Olmo Improvement Benchmark)、音声領域におけるStep-Audio-R1、Omnilingual ASRなどこちらの流れも勢いは衰えていない。

  • Step-Audio-R1 Technical Report [70.4]
    本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。 私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
    論文  参考訳(メタデータ)   (Wed, 19 Nov 2025 20:12:50 GMT)
  • Gemini 3 Proとも競合を主張、「Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain」
  • リポジトリはGitHub – stepfun-ai/Step-Audio-R1
  • Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.1]
    大規模自動音声認識システムであるOmnilingual ASRを紹介する。 自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:04:28 GMT)
  • 「Omnilingual ASR illustrates how scaling methods, when combined with deliberate data collection and new architectural innovation, can reshape the trajectory of multilingual ASR. The project not only extends coverage to more than 1,600 languages, with over 500 represented for the first time in any ASR system, but also reframes how coverage itself is conceived.」と非常に多くの言語をカバーするモデル
  • リポジトリはGitHub – facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages

Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL

先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。

Kimi K2 Thinking(Kimi K2 Thinkingmoonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。

マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech ReportiFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。

  • iFlyBot-VLA Technical Report [25.3]
    iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 06:24:56 GMT)
  • iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
  • iFlyBot/iFlyBotVLM · Hugging Face
  • NVIDIA Nemotron Nano V2 VL [134.5]
    ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 00:10:19 GMT)
  • 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
  • nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face

ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2

先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。

Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。

また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。

  • DeepSeek-OCR: Contexts Optical Compression [15.6]
    我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 02:41:44 GMT)
  • ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
  • olmOCR 2: Unit Test Rewards for Document OCR [29.5]
    olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Oct 2025 17:53:02 GMT)
  • こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
  • リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning

  • ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
    外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 04:11:16 GMT)
  • LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
  • リポジトリはGitHub – SalesforceAIResearch/ToolLibGen

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning