- Scaling Open-Ended Reasoning to Predict the Future [56.7]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 18:59:51 GMT) - 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
- プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.
MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
- MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 14:51:52 GMT) - 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
- リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.
ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.2]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。 ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 16:51:14 GMT) - 「ShowUI-π highlights the following architecture: (i) Unified Discrete-Continuous Actions: ShowUI-π casts discrete clicks as drags with negligible movements, and integrates them with continuous drags into a unified modeling. Under this formulation, both action types are represented by a sequence of (x,y,m) triplets, where (x,y) are cursor coordinates and m ∈ {down,up} is the mouse button state. This unified design allows ShowUI-π to handle both drag and click tasks with a single shared model, adapting without task-specific head selection.」と他のGUI Agentとはデータの扱い方が異なるフレームワークの提案。
- プロジェクトサイトはShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:59:27 GMT) - 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
- リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
A.X K1, EXAONE, VAETKI, HyperCLOVAX, Solar Open, IQuest Coder, TeleChat3-MoE, SenseNova-MARS
Manusの買収(?)など先週も大きなニュースがあったが、韓国の科学技術情報通信部が独自AI基盤モデル第1回発表会を開催 – ChosunBizは興味深かった。下記のモデルに関する発表があったよう。
- SK Telecom Unveils A.X K1, Korea’s First 500B-Scale Hyperscale AI Model – SK telecom newsroom
- LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face
- NC-AI-consortium-VAETKI/VAETKI · Hugging Face
- minpeter/HyperCLOVAX-SEED-Text-Think-32B-hf · Hugging Face
- upstage/Solar-Open-100B · Hugging Face
アップステージのソーラ・オープン100Bが中国モデル類似疑惑で公開検証へ – ChosunBizという指摘もあるようだが、ソブリンAIの開発は重要であるし、また、公開モデルの方向性としても要注目。(何をソブリンAIとして定義するかは悩ましい問題でもある。)
上記とは別に、IQuest Coderのような高性能モデルが公開、TELECHAT3やSenseNova-MARSといった強力なLLM、推論・検索フレームワークについても発表が相次いでおり、今年も熱い状況が続きそう。
- IQuest_Coder_Technical_Report
IQuest-Coder-V1シリーズは、コード大規模言語モデル(LLMs)の新しいファミリーであり、ソフトウェアロジックの動的進化を捉える多段階トレーニングパラダイムを提案しています。このモデルは、事前トレーニングから専門的な中間トレーニング、二つのポストトレーニングパスを経て高度なコードインテリジェンスを実現し、エージェント的なソフトウェアエンジニアリングや競技プログラミングにおいて最先端の性能を達成しています。さらに、リカレントメカニズムを導入したIQuest-Coder-V1-Loopは、モデルの能力と展開サイズの最適化のトレードオフを改善するためのアーキテクチャ的な進化を提供します。
- Training Report of TeleChat3-MoE [77.9]
この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。 本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。 解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 11:42:14 GMT) - リポジトリはGitHub – Tele-AI/TeleChat3
- SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.1]
SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。 画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。 SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 16:31:45 GMT) - リポジトリはGitHub – OpenSenseNova/SenseNova-MARS
Training AI Co-Scientists Using Rubric Rewards
- Training AI Co-Scientists Using Rubric Rewards [36.9]
AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
論文 参考訳(メタデータ) (Mon, 29 Dec 2025 18:59:33 GMT) - 「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。
- データセットが公開されている facebook/research-plan-gen · Datasets at Hugging Face
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 04:25:11 GMT) - 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
- リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection
Yume-1.5: A Text-Controlled Interactive World Generation Model
- Yume-1.5: A Text-Controlled Interactive World Generation Model [78.9]
Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。 メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
論文 参考訳(メタデータ) (Fri, 26 Dec 2025 17:52:49 GMT) - 「we present Yume1.5, an interactive world generation model that enables infinite video generation from a single input image through autoregressive synthesis while supporting intuitive keyboard-based camera control.」、「The key innovations of Yume1.5 include: (1) a joint temporal-spatial-channel modeling approach that enables efficient long video generation while maintaining temporal coherence; (2) an acceleration method that mitigates error accumulation during inference; and (3) text-controlled world event generation capability achieved through careful architectural design and mixed-dataset training.」とのこと。動画生成系、world modelにつながる研究。夢、世界(GitHub – Lixsp11/sekai-codebase: [NeurIPS 2025] The official repository of “Sekai: A Video Dataset towards World Exploration”)とネーミングも面白い。
- リポジトリはGitHub – stdstu12/YUME: The official code of Yume、モデルはstdstu123/Yume-5B-720P · Hugging Face
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
- Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction [26.4]
本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。 以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。 モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 20:41:36 GMT) - 問題の難易度を予測させるタスクに関する研究。「This study demonstrates that Large Language Mod- els currently struggle to align with human percep- tion of difficulty despite their advanced problem- solving capabilities. We find that increasing model scale does not guarantee better alignment but rather fosters a machine consensus that systematically diverges from student reality.」知h上に興味深い結果。教育目的の利用で大きな課題になるのと同時に一般的な利用においても注意すべきものに思える。
- リポジトリはGitHub – MingLiiii/Difficulty_Alignment: Can LLMs Estimate Student Struggles? Human-LLM Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation
- GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation [115.5]
ベンチマークドリフトは、最も人気のあるT2Iベンチマークの一つであるGenEvalにとって重要な問題であることを示す。 我々は新しいベンチマークGenEval 2を導入し、原始的な視覚概念のカバレッジを改善し、より高度な構成性を実現した。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 18:26:56 GMT) - 「GenEval was well-aligned with human judgment at the time of its release, it has drifted far from human judgment over time—resulting in an absolute error of as much as 17.7% for current models. This level of drift strongly suggests that GenEval has been saturated for some time, as we verify via a large-scale human study. To help fill this benchmarking gap, we introduce a new benchmark, GenEval 2, with improved coverage of primitive visual concepts and higher degrees of compositionality, which we show is more challenging for current models.」とGenEvalの新たなバージョンの提案。
- リポジトリはGitHub – facebookresearch/GenEval2: Evaluation codes and data for GenEval2