- MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 14:51:52 GMT) - 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
- リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.
ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.2]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。 ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 16:51:14 GMT) - 「ShowUI-π highlights the following architecture: (i) Unified Discrete-Continuous Actions: ShowUI-π casts discrete clicks as drags with negligible movements, and integrates them with continuous drags into a unified modeling. Under this formulation, both action types are represented by a sequence of (x,y,m) triplets, where (x,y) are cursor coordinates and m ∈ {down,up} is the mouse button state. This unified design allows ShowUI-π to handle both drag and click tasks with a single shared model, adapting without task-specific head selection.」と他のGUI Agentとはデータの扱い方が異なるフレームワークの提案。
- プロジェクトサイトはShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:59:27 GMT) - 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
- リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
A.X K1, EXAONE, VAETKI, HyperCLOVAX, Solar Open, IQuest Coder, TeleChat3-MoE, SenseNova-MARS
Manusの買収(?)など先週も大きなニュースがあったが、韓国の科学技術情報通信部が独自AI基盤モデル第1回発表会を開催 – ChosunBizは興味深かった。下記のモデルに関する発表があったよう。
- SK Telecom Unveils A.X K1, Korea’s First 500B-Scale Hyperscale AI Model – SK telecom newsroom
- LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face
- NC-AI-consortium-VAETKI/VAETKI · Hugging Face
- minpeter/HyperCLOVAX-SEED-Text-Think-32B-hf · Hugging Face
- upstage/Solar-Open-100B · Hugging Face
アップステージのソーラ・オープン100Bが中国モデル類似疑惑で公開検証へ – ChosunBizという指摘もあるようだが、ソブリンAIの開発は重要であるし、また、公開モデルの方向性としても要注目。(何をソブリンAIとして定義するかは悩ましい問題でもある。)
上記とは別に、IQuest Coderのような高性能モデルが公開、TELECHAT3やSenseNova-MARSといった強力なLLM、推論・検索フレームワークについても発表が相次いでおり、今年も熱い状況が続きそう。
- IQuest_Coder_Technical_Report
IQuest-Coder-V1シリーズは、コード大規模言語モデル(LLMs)の新しいファミリーであり、ソフトウェアロジックの動的進化を捉える多段階トレーニングパラダイムを提案しています。このモデルは、事前トレーニングから専門的な中間トレーニング、二つのポストトレーニングパスを経て高度なコードインテリジェンスを実現し、エージェント的なソフトウェアエンジニアリングや競技プログラミングにおいて最先端の性能を達成しています。さらに、リカレントメカニズムを導入したIQuest-Coder-V1-Loopは、モデルの能力と展開サイズの最適化のトレードオフを改善するためのアーキテクチャ的な進化を提供します。
- Training Report of TeleChat3-MoE [77.9]
この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。 本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。 解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 11:42:14 GMT) - リポジトリはGitHub – Tele-AI/TeleChat3
- SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.1]
SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。 画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。 SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 16:31:45 GMT) - リポジトリはGitHub – OpenSenseNova/SenseNova-MARS
Training AI Co-Scientists Using Rubric Rewards
- Training AI Co-Scientists Using Rubric Rewards [36.9]
AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
論文 参考訳(メタデータ) (Mon, 29 Dec 2025 18:59:33 GMT) - 「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。
- データセットが公開されている facebook/research-plan-gen · Datasets at Hugging Face
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 04:25:11 GMT) - 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
- リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection
Yume-1.5: A Text-Controlled Interactive World Generation Model
- Yume-1.5: A Text-Controlled Interactive World Generation Model [78.9]
Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。 メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 17:52:49 GMT) - 「we present Yume1.5, an interactive world generation model that enables infinite video generation from a single input image through autoregressive synthesis while supporting intuitive keyboard-based camera control.」、「The key innovations of Yume1.5 include: (1) a joint temporal-spatial-channel modeling approach that enables efficient long video generation while maintaining temporal coherence; (2) an acceleration method that mitigates error accumulation during inference; and (3) text-controlled world event generation capability achieved through careful architectural design and mixed-dataset training.」とのこと。動画生成系、world modelにつながる研究。夢、世界(GitHub – Lixsp11/sekai-codebase: [NeurIPS 2025] The official repository of “Sekai: A Video Dataset towards World Exploration”)とネーミングも面白い。
- リポジトリはGitHub – stdstu12/YUME: The official code of Yume、モデルはstdstu123/Yume-5B-720P · Hugging Face
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction [26.4]
本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。 以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。 モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 20:41:36 GMT) - 問題の難易度を予測させるタスクに関する研究。「This study demonstrates that Large Language Mod- els currently struggle to align with human percep- tion of difficulty despite their advanced problem- solving capabilities. We find that increasing model scale does not guarantee better alignment but rather fosters a machine consensus that systematically diverges from student reality.」知h上に興味深い結果。教育目的の利用で大きな課題になるのと同時に一般的な利用においても注意すべきものに思える。
- リポジトリはGitHub – MingLiiii/Difficulty_Alignment: Can LLMs Estimate Student Struggles? Human-LLM Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation
- GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation [115.5]
ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。 我々は新しいベンチマークGenEval 2を導入し、原始的な視覚概念のカバレッジを改善し、より高度な構成性を実現した。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:26:56 GMT) - 「GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time—resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models.」とGenEvalの新たなバージョンの提案。
- リポジトリはGitHub – facebookresearch/GenEval2: Evaluation codes and data for GenEval2
2025年の振り返り
毎年恒例のChatGPTによる2025年の振り返り。今年はAPIを利用せずにProモードにお任せしてみた。正直怪しいところがないではないがまずまず良くまとめられているように思う。
2025年1月
- GUIエージェントのネイティブモデル路線として、UI-TARS が発表されました。OSWorld などでのスコアを示しつつ、知覚強化・統一アクション空間・熟考(System-2)・反省を伴うオンライン軌跡収集など、GUI操作を前提にした訓練設計が要点です。
- 長文書×マルチモーダル検索のベンチマーク MMDocIR(ページ/レイアウトレベル検索)が提示され、実務的な文書理解の評価軸が整理されました。
- 論文探索そのもののエージェント化として、PaSa(ツール呼び出し・論文読解・参照選択を自律実行)が提案され、合成データで訓練しても実運用に近いクエリで改善する点が示されました。
- 推論系では、o1系の考えすぎ(トークン過剰)を抑える O1-Pruner(Length-Harmonizing Fine-Tuning)が提案され、推論コスト最適化が明確なテーマとして現れています。
2025年2月
- マルチモーダル推論の評価の具体化として、LMMのCoT品質・頑健性・効率を測る MME-CoT が発表されました(数学/科学/OCR/論理/時空間/一般シーンの6領域)。
- テスト時スケーリング(推論時の計算増)をコード生成へ拡張する流れで、S*(コード生成向けハイブリッドTTS)が提案されました。推論時にどこへ計算を使うかが、数学だけでなく実装領域にも広がっていく流れです。
- RAGからメモリへという文脈では、HippoRAG2(長期記憶着想のRAG)、RAG vs GraphRAG の体系比較、A-MEM(エージェント型メモリ)がまとまって提示されました。検索強化の次の競争軸として、経験の蓄積・連想・更新が前面に出ています。
- ベンチマークの重心が実務に近い難所へ動く中で、
- SuperGPQA(285分野の大学院レベル評価)
- Sys2Bench(推論・計画における推論時計算の効果検証)
- SWE-Lancer(実在のフリーランス案件を金額換算できる形で評価)
のように、能力差が出やすい評価設計が増えました。
- GUIエージェントはPC実務へ寄せて構造化され、PC-Agent(階層型マルチエージェント、Active Perception Module、反省ベース意思決定など)が発表されました。スクリーン理解の弱さを補う設計が明示され、単発デモから運用設計へ近づいています。
- AI co-scientist は、仮説生成を計算スケーリングで加速し、研究目標に整合させつつ検証可能な仮説を提案する設計が述べられ、実験的に支持される候補(例:腫瘍抑制を示す候補)に触れています。加えて Grok-3 や GPUカーネル生成の話題も同じ流れで語られ、研究・開発ワークフローにAIが組み込まれる前提が強まっています。
2025年3月
- 月内のニュース枠では、Gemini 2.5 の話題や DeepSeek V3 のアップデートなど、主要モデルの競争状況がまとめられました(性能向上だけでなく、運用面・展開面の話題も並びます)。
- 長時間タスクを時間で測る評価として、50%成功率でのタスク完了時間(time horizon)を定義し、フロンティアモデルの到達点を定量化する提案が発表されました。実運用での任せられる範囲を議論しやすくするタイプの指標です。
- エージェントの社会実装が進む前提で、信頼性・脅威・対策を体系化する TrustAgent(サーベイ/フレームワーク)が提示されました。ツール/メモリ/ユーザ/環境などを含めた整理が中心です。
- 文書理解RAGの高度化として、MDocAgent(テキスト・画像を使い分ける複数エージェント構成)が提案され、複数ベンチマークで平均改善が示されました。
- 評価系では、多言語の上級ベンチマークMMLU-ProX(13言語、同一問題セットでの言語間比較)が発表され、言語資源量に応じた性能劣化が明確に観測されています。
- 開発運用で刺さりやすい領域として、環境構築を評価する EnvBenchが提案され、コード生成とは別の難所(依存解決・再現性)をベンチマーク化する流れが確認できます。
2025年4月
- ハルシネーション検出の限界と条件が理論枠組みで整理され、正例だけでは困難で、負例(誤り例)を明示ラベルとして学習することで状況が変わる、という論点が提示されました。
- GUIエージェントでは、学習データの作り方が具体化しました。TongUI はマルチモーダルWebチュートリアルから軌跡を作る GUI-Net(143K)を構築し、Qwen2.5-VL-3B/7B の微調整で汎用GUIエージェントを狙う設計が示されました。
- さらに Windows 実務へ寄せた UFO2(Desktop AgentOS) と UI-TARS-1.5(オープンソースのマルチモーダルエージェント)が発表され、OSレベル自動化の実装競争が明確になりました。
- 論文→実装の自動化として Paper2Code(PaperCoder)が発表され、計画→分析→コーディングの3段階で機械学習論文をコード化する流れが示されました。
- 推論データでは DeepMath-103K(検証可能な最終解を持つ数学データセット)が公開され、ルールベースRLなど学習設計へつながる形になっています。
2025年5月
- データセット蒸留の評価を見直す DD-Ranking が提案され、手法改善が訓練テクニック由来なのか、蒸留データ自体の情報量由来なのかを切り分ける狙いが示されました。
- 知識注入の現実的ベンチマークWikiDYK(WikipediaのDid You Know…由来)が発表され、双方向LMと因果LMの記憶特性の差という観点も提示されました。
- 音声領域では DCASE 2025 の 音響内容推論を含むAudio QAが発表され、キャプショニングから一歩進んだ評価設計が前に出ています。
- Visual Planning と GRITでは計画・推論をテキストだけに固定せず、画像表現で進める方向。マルチモーダル推論の設計論が登場しました。
- XRAG / NExT-Searchなど検索+生成の評価や、検索のフィードバック設計を再構築する提案。検索と生成の統合が進むほど、評価と改善ループが重要になっています。
2025年6月
- ニュースとして、Deep Research API や Gemini CLI が発表され、開発・利用形態の変化が強く意識される月になりました。同時に、Mistral-Small-3.2-24B や Hunyuan-A13B、音声の OpusLM など、公開モデルの動きも並列で示され、現場での選択肢が増える局面です。
- AI for Scienceの進捗を測るベンチマークとして、BLA Benchmark(Measuring, Tracking, and Making AI for Science Progress)が発表され、科学領域でも評価・追跡が前提になっていく流れが見えます。
- 研究プロセス全体では、From Ideation to Execution の文脈で、着想から実行までのギャップを埋めるための設計論が提示されました。AIが論文読解だけでなく、実験・検証・実装側へ広がる前提の整理です。
- さらに、閉ループ自動化の段階を越え、具体的成果(検証・発見)に接続する設計が前進しています。Intelligent Science Laboratory は閉ループ自律発見を明確に掲げ、研究の自動実行を一段進める方向を提示しました。
- AlphaEvolve は、LLMを使った自動設計・探索の方向性を強める話題として提示され、科学・工学的探索を反復可能な計算ワークフローに寄せる流れと整合します。
- 科学知識の取り扱いでは、CRITICTOOL のように 引用とツール利用を前提に科学的主張を検証する枠組みが提案され、生成だけでなく検証・反証可能性を重視する方向が明確です。
2025年7月
- RAGを検索だけでなく推論と統合する Agentic RAG + Deep Reasoning のサーベイが発表され、実装の前提知識が整理されました。
- 科学論文の概念図(スキーマ図)を理解できるかを測る MIS-QA が発表され、マルチモーダル基盤モデルの科学読解を評価する具体的なベンチマークが出ています。
- 週次ニュース(Qwen3-Coder / Intern-S1 / Step-Audio2 / TeleChat2 / Apple Intelligence など)はモデル更新が広範囲に進行。コード・音声・マルチモーダル・端末内モデルまで話題が分散。
- 言語混在が推論に与える影響として、多言語モデルの推論で言語が混ざる現象を、悪癖ではなく戦略として捉える分析がありました。
- Docopilotでは文書レベル理解のデータセットとモデルの提案。業務系マルチモーダルの重要領域が引き続き拡大しています。
2025年8月
- 自己進化型エージェント(デプロイ後に環境フィードバックで自動拡張)を体系化するサーベイが発表され、運用を前提にしたエージェント観が強まりました。
- AI Scientist/Robot Scientist のための オープンアクセス基盤 aiXiv が提案され、提案・査読・防御までを含む運用設計(RAG評価やプロンプトインジェクション耐性など)が示されました。
- SurveyGen-I は、検索→計画進化→メモリ誘導執筆を統合し、サーベイ生成を一貫性と引用カバレッジで改善する枠組みとして提示されました。
2025年9月
- 公開モデルの勢いが非常に強い月として、Qwen3-Omni、LongCat-Flash-Thinking(オープンなMoE推論)、EmbeddingGemma、Logics-Parsing などが発表されました。マルチモーダル・推論・埋め込み・文書理解まで、オープン側の幅が広がっています。
- エージェント学習では LIMI(Less is More for Agency)が提案され、データ量よりも高品質な自律行動デモの戦略的キュレーションが効く、という方向性が示されました。
- 評価・理解の基盤として、Fluid Benchmarking(適応型テストの発想でベンチマークを動的選択)や、Mambaの弱点を合成タスクで示す研究など、モデル理解と評価方法が前進しています。
2025年10月
- ニュース枠では、ChatGPT Atlas、Ring-1T、DeepSeek OCR、olmOCR 2 が発表されました。フロンティア機能の拡張と、オープン側の大型モデル・OCRツールが同時に進む構図が明確です。
- Deep Research 系の評価をドメイン特化で測る FinDeepResearch Benchmark(金融ドメイン)が発表され、汎用の深掘り能力だけでなく、業務領域別の再現性ある測定が志向されています。
- 文書理解/OCR周辺では UNIDOC-BENCH のようなベンチマークが提示され、OCR精度だけでなく文書としての取り扱い全体を評価する方向が見えます。
- GUIエージェントの学習基盤として UI-Simulator が発表され、実行環境・行動ログの整備を通じて、現実的な操作を学習させる方向が強まりました。
- 生成物の信頼性では VeriCite が提案され、引用生成・検証を人間水準へ寄せる方向が見えます。同時に、データ汚染(contamination)検出や、評価の信頼性を担保する話題も並び、ベンチマーク運用の重要性が増しています。
2025年11月
- 月内のモデル動向まとめでは、Grok 4.1、Gemini 3 Pro、GPT-5.1 Pro/Codex、Nano Banana Pro、Olmo 3、Step-Audio-R1、Omnilingual ASR が列挙され、フロンティアと公開モデル、さらに音声推論・多言語ASRまで含めた競争状況が整理されました。
- GUI領域では、Computer-Use Agents を 生成UIの評価者(judge)として使う発想が提示され、UIが人間中心からエージェント中心へ寄る可能性が示されました。
- マルチエージェントのリスクとして、協調詐欺を扱う MultiAgentFraudBench が発表され、現実の脅威モデルを評価へ落とす流れが見えます。
- 自己進化エージェント(AgentEvolver、Agent0)も発表され、ツール統合やカリキュラム共進化で性能を伸ばすアプローチが強調されています(ベースとしてQwen系が言及される点も含め、公開モデルを土台にした進化が見えます)。
- 世界モデル文脈では、動画生成モデルの推論能力を測る Gen-ViRe が提案され、生成品質だけでなく推論・計画・時空間認知などの評価軸が明確化しています。
2025年12月
- dMLLM-TTS は、Diffusion系マルチモーダルLLMに対する テスト時スケーリングの効率化として提示され、生成品質と計算効率の両立がテーマになっています。
- MMGR は、動画・画像生成を世界モデルへ近づけるために、物理・論理・空間・時間などの推論柱で評価する枠組みとして発表されました。
- GUIエージェントは、EDA(電子設計)という高付加価値領域へ拡張され、GUI-EDA ベンチマークと EDAgent が発表されました。オフィス自動化から専門領域へ、適用先が本格的に広がっています。
- LLMを暗黙の世界モデルとして扱う Word to World も提示され、強化学習・シミュレーションとLLMの接合が継続トレンドであることが示唆されます。
2025年の技術動向の要約
- エージェントは能力から運用へ
長時間タスクの時間地平評価、環境構築ベンチマーク、実案件型SWE評価など、現場の失敗点を測る指標が増え、単純なQA精度から運用性能へ重心が移っています。 - GUIエージェントは、学習データ・OS統合・専門領域対応の3点で成熟
UI-TARS/TongUI/UFO2/UI-Simulator/GUI-EDA といった流れで、(1)軌跡データ整備、(2)OSレベル自動化、(3)高付加価値業務(EDA等)への適用が揃って進みました。 - AI for Scienceは、閉ループ自動化の段階から具体的成果を狙う統合ワークフローへ
AI co-scientist のように検証可能仮説を提案し、実験的支持のある候補に触れる話題が出る一方、Intelligent Science Laboratory や CRITICTOOL、BLA Benchmark など、仮説生成→検証→評価の接続を支える要素が整ってきています。2025年は、閉ループの枠内に留まらず、発見・検証をより直接に狙える設計が現実味を帯びた年と整理できます。 - 公開モデル(オープン)の存在感が拡大し、用途が多極化
Qwen/Gemma系の派生、推論MoE、埋め込み、音声推論、超多言語ASRなど、オープン側が単なる代替ではなく、領域別に尖った選択肢として前提化しています。 - 評価(ベンチマーク)の高度化が、開発競争の前提条件になった
MME-CoT、SuperGPQA、FinDeepResearch、DeepMath、Fluid Benchmarking、汚染検出など、能力差を出すだけでなく、評価自体の信頼性を担保する方向が強まりました。
状況の解釈と示唆
- 業務導入の焦点は、モデル選定より先に評価・運用設計へ移っています。
長時間タスク、環境構築、文書OCR、ドメインDeep Researchなど、自社業務の失敗点に合うベンチマーク/テスト設計を先に持つことが、PoCの再現性と本番品質を左右します。 - GUI自動化は、汎用操作から専門業務へ拡張する局面です。
オフィス操作に留めず、設計・解析・運用など高価値領域で、データ(操作軌跡)とガバナンス(監査・安全)を揃えたうえで段階的に適用範囲を広げる戦略が合理的です。 - AI for Scienceは、研究支援ツール導入だけでなく、研究プロセスのデジタル化が成果を決めます。
仮説・実験・結果・引用を機械可読に接続できる状態(記録、API、検証可能性)を整えるほど、生成モデルの価値が閉ループを超えて具体的成果に結びつきやすくなります。 - 公開モデル活用はコスト削減だけでなく要件適合で選ぶフェーズに入りました。
埋め込み、音声、多言語、推論など、用途別にオープンが最適になるケースが増えています。機密性・規制・オンプレ要件がある場合も含め、フロンティア+オープンの併用を前提にアーキテクチャを設計するのが現実的です。