2025年の振り返り – arXiv最新論文の紹介

毎年恒例のChatGPTによる2025年の振り返り。今年はAPIを利用せずにProモードにお任せしてみた。正直怪しいところがないではないがまずまず良くまとめられているように思う。

2025年1月

GUIエージェントのネイティブモデル路線として、UI-TARS が発表されました。OSWorld などでのスコアを示しつつ、知覚強化・統一アクション空間・熟考（System-2）・反省を伴うオンライン軌跡収集など、GUI操作を前提にした訓練設計が要点です。
長文書×マルチモーダル検索のベンチマーク MMDocIR（ページ/レイアウトレベル検索）が提示され、実務的な文書理解の評価軸が整理されました。
論文探索そのもののエージェント化として、PaSa（ツール呼び出し・論文読解・参照選択を自律実行）が提案され、合成データで訓練しても実運用に近いクエリで改善する点が示されました。
推論系では、o1系の考えすぎ（トークン過剰）を抑える O1-Pruner（Length-Harmonizing Fine-Tuning）が提案され、推論コスト最適化が明確なテーマとして現れています。

2025年2月

マルチモーダル推論の評価の具体化として、LMMのCoT品質・頑健性・効率を測る MME-CoT が発表されました（数学/科学/OCR/論理/時空間/一般シーンの6領域）。
テスト時スケーリング（推論時の計算増）をコード生成へ拡張する流れで、S*（コード生成向けハイブリッドTTS）が提案されました。推論時にどこへ計算を使うかが、数学だけでなく実装領域にも広がっていく流れです。
RAGからメモリへという文脈では、HippoRAG2（長期記憶着想のRAG）、RAG vs GraphRAG の体系比較、A-MEM（エージェント型メモリ）がまとまって提示されました。検索強化の次の競争軸として、経験の蓄積・連想・更新が前面に出ています。
ベンチマークの重心が実務に近い難所へ動く中で、
- SuperGPQA（285分野の大学院レベル評価）
- Sys2Bench（推論・計画における推論時計算の効果検証）
- SWE-Lancer（実在のフリーランス案件を金額換算できる形で評価）
  のように、能力差が出やすい評価設計が増えました。
GUIエージェントはPC実務へ寄せて構造化され、PC-Agent（階層型マルチエージェント、Active Perception Module、反省ベース意思決定など）が発表されました。スクリーン理解の弱さを補う設計が明示され、単発デモから運用設計へ近づいています。
AI co-scientist は、仮説生成を計算スケーリングで加速し、研究目標に整合させつつ検証可能な仮説を提案する設計が述べられ、実験的に支持される候補（例：腫瘍抑制を示す候補）に触れています。加えて Grok-3 や GPUカーネル生成の話題も同じ流れで語られ、研究・開発ワークフローにAIが組み込まれる前提が強まっています。

2025年3月

月内のニュース枠では、Gemini 2.5 の話題や DeepSeek V3 のアップデートなど、主要モデルの競争状況がまとめられました（性能向上だけでなく、運用面・展開面の話題も並びます）。
長時間タスクを時間で測る評価として、50%成功率でのタスク完了時間（time horizon）を定義し、フロンティアモデルの到達点を定量化する提案が発表されました。実運用での任せられる範囲を議論しやすくするタイプの指標です。
エージェントの社会実装が進む前提で、信頼性・脅威・対策を体系化する TrustAgent（サーベイ/フレームワーク）が提示されました。ツール/メモリ/ユーザ/環境などを含めた整理が中心です。
文書理解RAGの高度化として、MDocAgent（テキスト・画像を使い分ける複数エージェント構成）が提案され、複数ベンチマークで平均改善が示されました。
評価系では、多言語の上級ベンチマークMMLU-ProX（13言語、同一問題セットでの言語間比較）が発表され、言語資源量に応じた性能劣化が明確に観測されています。
開発運用で刺さりやすい領域として、環境構築を評価する EnvBenchが提案され、コード生成とは別の難所（依存解決・再現性）をベンチマーク化する流れが確認できます。

2025年4月

ハルシネーション検出の限界と条件が理論枠組みで整理され、正例だけでは困難で、負例（誤り例）を明示ラベルとして学習することで状況が変わる、という論点が提示されました。
GUIエージェントでは、学習データの作り方が具体化しました。TongUI はマルチモーダルWebチュートリアルから軌跡を作る GUI-Net（143K）を構築し、Qwen2.5-VL-3B/7B の微調整で汎用GUIエージェントを狙う設計が示されました。
さらに Windows 実務へ寄せた UFO2（Desktop AgentOS）と UI-TARS-1.5（オープンソースのマルチモーダルエージェント）が発表され、OSレベル自動化の実装競争が明確になりました。
論文→実装の自動化として Paper2Code（PaperCoder）が発表され、計画→分析→コーディングの3段階で機械学習論文をコード化する流れが示されました。
推論データでは DeepMath-103K（検証可能な最終解を持つ数学データセット）が公開され、ルールベースRLなど学習設計へつながる形になっています。

2025年5月

データセット蒸留の評価を見直す DD-Ranking が提案され、手法改善が訓練テクニック由来なのか、蒸留データ自体の情報量由来なのかを切り分ける狙いが示されました。
知識注入の現実的ベンチマークWikiDYK（WikipediaのDid You Know…由来）が発表され、双方向LMと因果LMの記憶特性の差という観点も提示されました。
音声領域では DCASE 2025 の音響内容推論を含むAudio QAが発表され、キャプショニングから一歩進んだ評価設計が前に出ています。
Visual Planning と GRITでは計画・推論をテキストだけに固定せず、画像表現で進める方向。マルチモーダル推論の設計論が登場しました。
XRAG / NExT-Searchなど検索＋生成の評価や、検索のフィードバック設計を再構築する提案。検索と生成の統合が進むほど、評価と改善ループが重要になっています。

2025年6月

ニュースとして、Deep Research API や Gemini CLI が発表され、開発・利用形態の変化が強く意識される月になりました。同時に、Mistral-Small-3.2-24B や Hunyuan-A13B、音声の OpusLM など、公開モデルの動きも並列で示され、現場での選択肢が増える局面です。
AI for Scienceの進捗を測るベンチマークとして、BLA Benchmark（Measuring, Tracking, and Making AI for Science Progress）が発表され、科学領域でも評価・追跡が前提になっていく流れが見えます。
研究プロセス全体では、From Ideation to Execution の文脈で、着想から実行までのギャップを埋めるための設計論が提示されました。AIが論文読解だけでなく、実験・検証・実装側へ広がる前提の整理です。
さらに、閉ループ自動化の段階を越え、具体的成果（検証・発見）に接続する設計が前進しています。Intelligent Science Laboratory は閉ループ自律発見を明確に掲げ、研究の自動実行を一段進める方向を提示しました。
AlphaEvolve は、LLMを使った自動設計・探索の方向性を強める話題として提示され、科学・工学的探索を反復可能な計算ワークフローに寄せる流れと整合します。
科学知識の取り扱いでは、CRITICTOOL のように引用とツール利用を前提に科学的主張を検証する枠組みが提案され、生成だけでなく検証・反証可能性を重視する方向が明確です。

2025年7月

RAGを検索だけでなく推論と統合する Agentic RAG + Deep Reasoning のサーベイが発表され、実装の前提知識が整理されました。
科学論文の概念図（スキーマ図）を理解できるかを測る MIS-QA が発表され、マルチモーダル基盤モデルの科学読解を評価する具体的なベンチマークが出ています。
週次ニュース（Qwen3-Coder / Intern-S1 / Step-Audio2 / TeleChat2 / Apple Intelligence など）はモデル更新が広範囲に進行。コード・音声・マルチモーダル・端末内モデルまで話題が分散。
言語混在が推論に与える影響として、多言語モデルの推論で言語が混ざる現象を、悪癖ではなく戦略として捉える分析がありました。
Docopilotでは文書レベル理解のデータセットとモデルの提案。業務系マルチモーダルの重要領域が引き続き拡大しています。

2025年8月

自己進化型エージェント（デプロイ後に環境フィードバックで自動拡張）を体系化するサーベイが発表され、運用を前提にしたエージェント観が強まりました。
AI Scientist/Robot Scientist のためのオープンアクセス基盤 aiXiv が提案され、提案・査読・防御までを含む運用設計（RAG評価やプロンプトインジェクション耐性など）が示されました。
SurveyGen-I は、検索→計画進化→メモリ誘導執筆を統合し、サーベイ生成を一貫性と引用カバレッジで改善する枠組みとして提示されました。

2025年9月

公開モデルの勢いが非常に強い月として、Qwen3-Omni、LongCat-Flash-Thinking（オープンなMoE推論）、EmbeddingGemma、Logics-Parsing などが発表されました。マルチモーダル・推論・埋め込み・文書理解まで、オープン側の幅が広がっています。
エージェント学習では LIMI（Less is More for Agency）が提案され、データ量よりも高品質な自律行動デモの戦略的キュレーションが効く、という方向性が示されました。
評価・理解の基盤として、Fluid Benchmarking（適応型テストの発想でベンチマークを動的選択）や、Mambaの弱点を合成タスクで示す研究など、モデル理解と評価方法が前進しています。

2025年10月

ニュース枠では、ChatGPT Atlas、Ring-1T、DeepSeek OCR、olmOCR 2 が発表されました。フロンティア機能の拡張と、オープン側の大型モデル・OCRツールが同時に進む構図が明確です。
Deep Research 系の評価をドメイン特化で測る FinDeepResearch Benchmark（金融ドメイン）が発表され、汎用の深掘り能力だけでなく、業務領域別の再現性ある測定が志向されています。
文書理解/OCR周辺では UNIDOC-BENCH のようなベンチマークが提示され、OCR精度だけでなく文書としての取り扱い全体を評価する方向が見えます。
GUIエージェントの学習基盤として UI-Simulator が発表され、実行環境・行動ログの整備を通じて、現実的な操作を学習させる方向が強まりました。
生成物の信頼性では VeriCite が提案され、引用生成・検証を人間水準へ寄せる方向が見えます。同時に、データ汚染（contamination）検出や、評価の信頼性を担保する話題も並び、ベンチマーク運用の重要性が増しています。

2025年11月

月内のモデル動向まとめでは、Grok 4.1、Gemini 3 Pro、GPT-5.1 Pro/Codex、Nano Banana Pro、Olmo 3、Step-Audio-R1、Omnilingual ASR が列挙され、フロンティアと公開モデル、さらに音声推論・多言語ASRまで含めた競争状況が整理されました。
GUI領域では、Computer-Use Agents を生成UIの評価者（judge）として使う発想が提示され、UIが人間中心からエージェント中心へ寄る可能性が示されました。
マルチエージェントのリスクとして、協調詐欺を扱う MultiAgentFraudBench が発表され、現実の脅威モデルを評価へ落とす流れが見えます。
自己進化エージェント（AgentEvolver、Agent0）も発表され、ツール統合やカリキュラム共進化で性能を伸ばすアプローチが強調されています（ベースとしてQwen系が言及される点も含め、公開モデルを土台にした進化が見えます）。
世界モデル文脈では、動画生成モデルの推論能力を測る Gen-ViRe が提案され、生成品質だけでなく推論・計画・時空間認知などの評価軸が明確化しています。

2025年12月

dMLLM-TTS は、Diffusion系マルチモーダルLLMに対するテスト時スケーリングの効率化として提示され、生成品質と計算効率の両立がテーマになっています。
MMGR は、動画・画像生成を世界モデルへ近づけるために、物理・論理・空間・時間などの推論柱で評価する枠組みとして発表されました。
GUIエージェントは、EDA（電子設計）という高付加価値領域へ拡張され、GUI-EDA ベンチマークと EDAgent が発表されました。オフィス自動化から専門領域へ、適用先が本格的に広がっています。
LLMを暗黙の世界モデルとして扱う Word to World も提示され、強化学習・シミュレーションとLLMの接合が継続トレンドであることが示唆されます。

2025年の技術動向の要約

エージェントは能力から運用へ
長時間タスクの時間地平評価、環境構築ベンチマーク、実案件型SWE評価など、現場の失敗点を測る指標が増え、単純なQA精度から運用性能へ重心が移っています。
GUIエージェントは、学習データ・OS統合・専門領域対応の3点で成熟
UI-TARS/TongUI/UFO2/UI-Simulator/GUI-EDA といった流れで、(1)軌跡データ整備、(2)OSレベル自動化、(3)高付加価値業務（EDA等）への適用が揃って進みました。
AI for Scienceは、閉ループ自動化の段階から具体的成果を狙う統合ワークフローへ
AI co-scientist のように検証可能仮説を提案し、実験的支持のある候補に触れる話題が出る一方、Intelligent Science Laboratory や CRITICTOOL、BLA Benchmark など、仮説生成→検証→評価の接続を支える要素が整ってきています。2025年は、閉ループの枠内に留まらず、発見・検証をより直接に狙える設計が現実味を帯びた年と整理できます。
公開モデル（オープン）の存在感が拡大し、用途が多極化
Qwen/Gemma系の派生、推論MoE、埋め込み、音声推論、超多言語ASRなど、オープン側が単なる代替ではなく、領域別に尖った選択肢として前提化しています。
評価（ベンチマーク）の高度化が、開発競争の前提条件になった
MME-CoT、SuperGPQA、FinDeepResearch、DeepMath、Fluid Benchmarking、汚染検出など、能力差を出すだけでなく、評価自体の信頼性を担保する方向が強まりました。

状況の解釈と示唆

業務導入の焦点は、モデル選定より先に評価・運用設計へ移っています。
長時間タスク、環境構築、文書OCR、ドメインDeep Researchなど、自社業務の失敗点に合うベンチマーク/テスト設計を先に持つことが、PoCの再現性と本番品質を左右します。
GUI自動化は、汎用操作から専門業務へ拡張する局面です。
オフィス操作に留めず、設計・解析・運用など高価値領域で、データ（操作軌跡）とガバナンス（監査・安全）を揃えたうえで段階的に適用範囲を広げる戦略が合理的です。
AI for Scienceは、研究支援ツール導入だけでなく、研究プロセスのデジタル化が成果を決めます。
仮説・実験・結果・引用を機械可読に接続できる状態（記録、API、検証可能性）を整えるほど、生成モデルの価値が閉ループを超えて具体的成果に結びつきやすくなります。
公開モデル活用はコスト削減だけでなく要件適合で選ぶフェーズに入りました。
埋め込み、音声、多言語、推論など、用途別にオープンが最適になるケースが増えています。機密性・規制・オンプレ要件がある場合も含め、フロンティア＋オープンの併用を前提にアーキテクチャを設計するのが現実的です。

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

2025年1月

2025年2月

2025年3月

2025年4月

2025年5月

2025年6月

2025年7月

2025年8月

2025年9月

2025年10月

2025年11月

2025年12月

2025年の技術動向の要約

状況の解釈と示唆

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル