- Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4]
本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
論文 参考訳(メタデータ) (Tue, 06 Jan 2026 11:20:38 GMT) - AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。
OpenOneRec
- OpenOneRec Technical Report [99.2]
OneRecシリーズは、断片化されたレコメンデーションパイプラインをエンドツーエンドの生成フレームワークにうまく統合した。 OneRec Foundation (1.7B と 8B) は、新しい最先端(SOTA)を確立するモデルのファミリであり、RecIF-Benchのすべてのタスクにまたがる結果である。 Amazonベンチマークに移行すると、当社のモデルは10種類のデータセットに対して平均26.8%のRecall@10の改善により、最強のベースラインを越えた。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 10:15:53 GMT) - レコメンデーションをE2E化するモデル「To facilitate reproducibility and scalable research, we open-sourced a full-stack training pipeline—including data processing, co-pretraining, and post-training protocols—and validated the scaling laws of recommendation ca- pabilities. Extensive experiments demonstrate that our OpenOneRec-Foundation models achieve state-of-the-art performance across RecIF-Bench and show exceptional transferability to external domains, proving the efficacy of our unified generative paradigm.」とオープンな取り組み。
- リポジトリはGitHub – Kuaishou-OneRec/OpenOneRec: An Open Foundation Model and Benchmark to Accelerate Generative Recommendation
End-to-End Test-Time Training for Long Context
- End-to-End Test-Time Training for Long Context [98.4]
アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。 我々のモデルは、与えられたコンテキストの次から次までの予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮します。 全体として、テストタイムトレーニング(TTT)の一形態であるE2E(End-to-End)は、テスト時(次世代の予測)とトレーニング時(メタラーニング)の両方である。
論文 参考訳(メタデータ) (Mon, 29 Dec 2025 18:30:14 GMT) - 「our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model’s initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms.」というTest-Time Trainingに関する報告
- リポジトリはGitHub – test-time-training/e2e: Official JAX implementation of End-to-End Test-Time Training for Long Context
mHC: Manifold-Constrained Hyper-Connections
- mHC: Manifold-Constrained Hyper-Connections [43.9]
ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。 残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。 mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 14:16:26 GMT) - DeepseekによるHyper-Connectionsからの改善提案。「mHC yields comprehensive improvements, consistently outperforming the baseline and surpassing HC on the majority of tasks. Notably, compared to HC, mHC further enhances the model’s reasoning capabilities, delivering performance gains of 2.1% on BBH (Suzgun et al , 2022) and 2.3% on DROP (Dua et al , 2019).」と効果を確認。27Bと相応の規模で実験をしている点もさすがというところ。
- MATHについてはHCに僅差ではあるが負けていて理由が気になるところではある。
FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading
- FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading [39.8]
The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。 ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
論文 参考訳(メタデータ) (Mon, 29 Dec 2025 11:56:33 GMT) - 「This paper proposes FineFT, a novel three-stage ensemble RL ap- proach for handling high stochasticity and risk for unseen markets in futures trading. First, an ETD error is computed to update the learner selectively to improve data efficiency and performance. Then, the ensemble is back-tested on various dynamics modelled by VAEs. Finally, we utilize risk-aware heuristic routing to avoid po- tential loss caused by epistemic uncertainty. Extensive experiments show FineFT’s high profitability and strong risk management.」と凝ったアプローチ。リポジトリが公開されているのがありがたい。
- リポジトリはGitHub – qinmoelei/FineFT_code_space
金融分野のLLMとしては下記も発表されていた。
- QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs [30.7]
本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。 我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。 金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 16:10:51 GMT) - 複数ステージによる金融強化型LLM。クローズモデルのようだが、性能向上幅など参考になる。
Recursive Language Models
- Recursive Language Models [14.2]
本稿では,長いプロンプトを外部環境として扱う一般的な推論手法であるRecursive Language Models (RLMs)を提案する。 RLMはモデルウィンドウを超える2桁の処理に成功し、たとえ短いプロンプトであっても、ベースLLMの品質を劇的に上回っていることがわかった。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 03:43:41 GMT) - 「We introduced Recursive Language Models (RLMs), a general inference framework for language models that offloads the input context and enables language models to recursively sub-query lan- guage models before providing an output. We explored an instantiation of this framework that offloads the context into a Python REPL environment as a variable in memory, enabling the LM to reason over its context in code and recursive LM calls, rather than purely in token space.」と外部メモリ的にPython実行環境を使うアプローチの提案。
- 著者のBlog(Recursive Language Models | Alex L. Zhang)やXの投稿(XユーザーのAlex L Zhangさん: 「What if scaling the context windows of frontier LLMs is much easier than it sounds? We’re excited to share our work on Recursive Language Models (RLMs). A new inference strategy where LLMs can decompose and recursively interact with input prompts of seemingly unbounded length, https://t.co/U0tGWmPybl」 / X)も参考になる。
JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2]
本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
論文 参考訳(メタデータ) (Sun, 28 Dec 2025 12:25:43 GMT) - 「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。
- プロジェクトサイトはJavisGPT
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
- Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking [53.8]
複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。 FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 15:39:11 GMT) - 「Our core idea is to embed visual construction into a model’s reasoning trajectory. Concretely, for each problem input, FIGR enters a multi-turn reasoning loop in which it can interleave pure textual rea- soning and executable code to generate diagrams – much like a human drawing intermediate sketches while reasoning.」というアプローチによる推論過程での図形データの活用手法の提案。
- リポジトリはGitHub – chenmeiqii/FIGR: Official implementation of “Figure It Out: Improve the Frontier of Reasoning with Active Visual Thinking”
Enhancing LLM Planning Capabilities through Intrinsic Self-Critique
- Enhancing LLM Planning Capabilities through Intrinsic Self-Critique [34.8]
検証器などの外部ソースを使わずに、本質的な自己批判を通じてデータセットを計画する際の顕著な性能向上を示す。 自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 09:23:25 GMT) - 「Each iteration of the self-improvement mechanism comprises two key steps: i) plan generation and ii) self-critiquing, aimed at iteratively refining LLM outputs. In step i), the LLM generates a plan (symbolized by a map) based on a prompt incorporating domain-specific knowledge and instructions (symbolized by the treasure chest). Step ii) involves a self-critique mechanism where the LLM evaluates its own performance, providing correctness assessments and justifications, again leveraging domain knowledge.」と自己批判による改善手法の提案。
- それなりに使われるテクニックであるとは思うのだが、イテレーションを含めしっかりと検証されていてとても参考になる。
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
- OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:29:50 GMT) - 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
- リポジトリはGitHub – numbmelon/OS-Oracle、OS-Copilot/OS-Critic-Bench · Datasets at Hugging Face