- Large Video Planner Enables Generalizable Robot Control [117.5]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。 最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。 本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:35:54 GMT) - 「We present Large Video Planner (LVP), a 14-billion parameter video foundation model for embodiment planning. LVP generates videos as motion plans conditioned on one or a few scene frames and a text description of the task. We demonstrate that these generated motion plans can be successfully retargeted to dexterous robotic hands using open-source reconstruction and retargeting tools. Evaluations on third-party proposed tasks show evidence of task-level generalization, a capability limited in existing VLA models.」と動画をカギとするロボット用の行動計画モデルの提案。
- 関連手法の進化を見るに、有力なアプローチに思えなくもない。
カテゴリー: arXiv
WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.7]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。 モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。 さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 18:59:58 GMT) - 「We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects – Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference – jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability.」というベンチマーク。
- リポジトリはGitHub – worldbench/WorldLens: 🌐 WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World、プロジェクトサイトはWorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
Adaptation of Agentic AI
- Adaptation of Agentic AI [162.6]
我々は、急速に拡大する研究環境を、エージェント適応とツール適応の両方にまたがる体系的な枠組みに統一する。 エージェントAIにおける適応戦略の設計空間を明らかにする上で,本フレームワークが有効であることを示す。 次に、各カテゴリの代表的アプローチをレビューし、その強みと限界を分析し、主要なオープン課題と今後の機会を強調します。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:38:51 GMT) - AIエージェントに関するサーベイ。「The transition from static foundation models to autonomous agentic systems marks a fundamental shift in artificial intelligence, moving from passive response generation to active and multi-step problem solving. As these systems are deployed in increasingly complex and open-ended environments, the ability to adapt to refine behavior, master new tools, and align with specific tasks has become the primary driver of reliability and performance.」を「(A1) Agent Adaptation with Tool Execution Signal, (A2) Agent Adaptation with Agent Output Signal, (T1) Agent-Agnostic Tool Adaptation, and (T2) Agent-Supervised Tool Adaptation.」軸で整理。メリデメがあるので「Looking forward, the advancement of agentic AI depends on the strategic integration of these paradigms rather than their isolation.」というのはそうだろうと思う。
- リポジトリはGitHub – pat-jj/Awesome-Adaptation-of-Agentic-AI: Repo for “Adaptation of Agentic AI”
OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni
OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。
オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMo、XユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。
動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。
- Step-GUI Technical Report [83.9]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 13:26:30 GMT) - 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
- リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
- Olmo 3 [195.4]
Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 23:41:48 GMT) - Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
- データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
- Bolmo: Byteifying the Next Generation of Language Models [115.3]
競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:46:11 GMT) - バイトレベルの言語モデル。相応の規模で検証したのがすごい。
- リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
- LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 09:26:18 GMT) - ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
- リポジトリはLLaDA 2.0 – a inclusionAI Collection
- Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 16:36:52 GMT) - 「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
- リポジトリはSeedance 1.5 pro
- Kling-Omni Technical Report [80.6]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 17:08:12 GMT) - Kling AI: Next-Gen AI Video & AI Image Generator
Evaluating Large Language Models in Scientific Discovery
- Evaluating Large Language Models in Scientific Discovery [91.7]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:20:03 GMT) - AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
- 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。
Memory in the Age of AI Agents
- Memory in the Age of AI Agents [217.9]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。 我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。 実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 17:22:34 GMT) - 重要性が増す、というかAGIを目指すための重要なピースであるMemoryのサーベイ。Key Questionsは次の通り。
- ❶How is agent memory defined, and how does it relate to related concepts such as LLM memory, retrieval-augmented generation (RAG), and context engineering?
- ❷Forms: What architectural or representational forms can agent memory take?
- ❸Functions: Why is agent memory needed, and what roles or purposes does it serve?
- ❹Dynamics: How does agent memory operate, adapt, and evolve over time?
- ❺What are the promising frontiers for advancing agent memory research?」
- リポジトリはGitHub – Shichun-Liu/Agent-Memory-Paper-List: The paper list of “Memory in the Age of AI Agents: A Survey”
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
- OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.2]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。 OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 15:47:38 GMT) - 「We introduced the Outcome-based Process Verifier (OPV), which bridges outcome and process verification by operating on summarized solutions from long CoTs. Through an iterative active learning framework with expert annotations, OPV progressively improves its verification capabilities while minimizing annotation costs.」とCoT的な推論過程を検証するアプローチの提案。
Deep Research: A Systematic Survey
- Deep Research: A Systematic Survey [118.8]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。 本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (Mon, 24 Nov 2025 15:28:28 GMT) - Deep Resaerchに関するサーベイ。関連研究を含め幅広いサーベイになっている。引用論文リストからは(当然と言えば当然だが)2025年以降に非常に盛り上がっている状況が分かる。
- リポジトリはGitHub – mangopy/Deep-Research-Survey: A Systematic Survey of Deep Research
How Far Are We from Genuinely Useful Deep Research Agents?
- How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:58:59 GMT) - 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
- リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”
MASim: Multilingual Agent-Based Simulation for Social Science
- MASim: Multilingual Agent-Based Simulation for Social Science [68.0]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。 既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。 我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文 参考訳(メタデータ) (Mon, 08 Dec 2025 06:12:48 GMT) - 「In this work, we explore multilingual agent-based simulation for social science discovery. We begin with the MAPS dataset, which integrates open- domain survey questionnaires with user demo- graphics from global social science surveys. On top of this resource, we develop the MASIM frame- work, which models social-network interactions among cross-country user agents and news agents, and outputs user attitude dynamics for survey questions. Our evaluation examines real-world cali- bration, global sensitivity, and local consistency, which collectively support the framework’s robust- ness and effectiveness.」とマルチリンガル性に特徴を持つマルチエージェントシミュレーションフレームワークの提案。多言語性は文化に関わる部分など重要なポイントのように思う。