End-to-End Test-Time Training for Long Context 

  • End-to-End Test-Time Training for Long Context [98.4]
    アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。 我々のモデルは、与えられたコンテキストの次から次までの予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮します。 全体として、テストタイムトレーニング(TTT)の一形態であるE2E(End-to-End)は、テスト時(次世代の予測)とトレーニング時(メタラーニング)の両方である。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 18:30:14 GMT)
  • 「our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model’s initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms.」というTest-Time Trainingに関する報告
  • リポジトリはGitHub – test-time-training/e2e: Official JAX implementation of End-to-End Test-Time Training for Long Context

mHC: Manifold-Constrained Hyper-Connections

  • mHC: Manifold-Constrained Hyper-Connections [43.9]
    ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。 残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。 mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 14:16:26 GMT)
  • DeepseekによるHyper-Connectionsからの改善提案。「mHC yields comprehensive improvements, consistently outperforming the baseline and surpassing HC on the majority of tasks. Notably, compared to HC, mHC further enhances the model’s reasoning capabilities, delivering performance gains of 2.1% on BBH (Suzgun et al , 2022) and 2.3% on DROP (Dua et al , 2019).」と効果を確認。27Bと相応の規模で実験をしている点もさすがというところ。
  • MATHについてはHCに僅差ではあるが負けていて理由が気になるところではある。

FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading

  • FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading [39.8]
    The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。 ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 11:56:33 GMT)
  • 「This paper proposes FineFT, a novel three-stage ensemble RL ap- proach for handling high stochasticity and risk for unseen markets in futures trading. First, an ETD error is computed to update the learner selectively to improve data efficiency and performance. Then, the ensemble is back-tested on various dynamics modelled by VAEs. Finally, we utilize risk-aware heuristic routing to avoid po- tential loss caused by epistemic uncertainty. Extensive experiments show FineFT’s high profitability and strong risk management.」と凝ったアプローチ。リポジトリが公開されているのがありがたい。
  • リポジトリはGitHub – qinmoelei/FineFT_code_space

金融分野のLLMとしては下記も発表されていた。

  • QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs [30.7]
    本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。 我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。 金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 16:10:51 GMT)
  • 複数ステージによる金融強化型LLM。クローズモデルのようだが、性能向上幅など参考になる。

Recursive Language Models 

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

  • JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2]
    本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
    論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:25:43 GMT)
  • 「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。
  • プロジェクトサイトはJavisGPT

Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

  • Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking [53.8]
    複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。 FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 15:39:11 GMT)
  • 「Our core idea is to embed visual construction into a model’s reasoning trajectory. Concretely, for each problem input, FIGR enters a multi-turn reasoning loop in which it can interleave pure textual rea- soning and executable code to generate diagrams – much like a human drawing intermediate sketches while reasoning.」というアプローチによる推論過程での図形データの活用手法の提案。
  • リポジトリはGitHub – chenmeiqii/FIGR: Official implementation of “Figure It Out: Improve the Frontier of Reasoning with Active Visual Thinking”

Enhancing LLM Planning Capabilities through Intrinsic Self-Critique

  • Enhancing LLM Planning Capabilities through Intrinsic Self-Critique [34.8]
    検証器などの外部ソースを使わずに、本質的な自己批判を通じてデータセットを計画する際の顕著な性能向上を示す。 自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 09:23:25 GMT)
  • 「Each iteration of the self-improvement mechanism comprises two key steps: i) plan generation and ii) self-critiquing, aimed at iteratively refining LLM outputs. In step i), the LLM generates a plan (symbolized by a map) based on a prompt incorporating domain-specific knowledge and instructions (symbolized by the treasure chest). Step ii) involves a self-critique mechanism where the LLM evaluates its own performance, providing correctness assessments and justifications, again leveraging domain knowledge.」と自己批判による改善手法の提案。
  • それなりに使われるテクニックであるとは思うのだが、イテレーションを含めしっかりと検証されていてとても参考になる。

OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models 

  • OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
    クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 08:29:50 GMT)
  • 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
  • リポジトリはGitHub – numbmelon/OS-OracleOS-Copilot/OS-Critic-Bench · Datasets at Hugging Face

Scaling Open-Ended Reasoning to Predict the Future 

  • Scaling Open-Ended Reasoning to Predict the Future [56.7]
    我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 18:59:51 GMT)
  • 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
  • プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents 

  • MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
    MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 14:51:52 GMT)
  • 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
  • リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.