Scaling Open-Ended Reasoning to Predict the Future 

  • Scaling Open-Ended Reasoning to Predict the Future [56.7]
    我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 18:59:51 GMT)
  • 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
  • プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents 

  • MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
    MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 14:51:52 GMT)
  • 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
  • リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

  • ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.2]
    そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。 ShowUI-$$は、たった450万のパラメータで26.98を達成する。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 16:51:14 GMT)
  • 「ShowUI-π highlights the following architecture: (i) Unified Discrete-Continuous Actions: ShowUI-π casts discrete clicks as drags with negligible movements, and integrates them with continuous drags into a unified modeling. Under this formulation, both action types are represented by a sequence of (x,y,m) triplets, where (x,y) are cursor coordinates and m ∈ {down,up} is the mouse button state. This unified design allows ShowUI-π to handle both drag and click tasks with a single shared model, adapting without task-specific head selection.」と他のGUI Agentとはデータの扱い方が異なるフレームワークの提案。
  • プロジェクトサイトはShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

  • A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
    LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 18:59:27 GMT)
  • 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
  • リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos