FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading

  • FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading [39.8]
    The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。 ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 11:56:33 GMT)
  • 「This paper proposes FineFT, a novel three-stage ensemble RL ap- proach for handling high stochasticity and risk for unseen markets in futures trading. First, an ETD error is computed to update the learner selectively to improve data efficiency and performance. Then, the ensemble is back-tested on various dynamics modelled by VAEs. Finally, we utilize risk-aware heuristic routing to avoid po- tential loss caused by epistemic uncertainty. Extensive experiments show FineFT’s high profitability and strong risk management.」と凝ったアプローチ。リポジトリが公開されているのがありがたい。
  • リポジトリはGitHub – qinmoelei/FineFT_code_space

金融分野のLLMとしては下記も発表されていた。

  • QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs [30.7]
    本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。 我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。 金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 16:10:51 GMT)
  • 複数ステージによる金融強化型LLM。クローズモデルのようだが、性能向上幅など参考になる。

Recursive Language Models 

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

  • JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2]
    本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
    論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:25:43 GMT)
  • 「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。
  • プロジェクトサイトはJavisGPT

Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

  • Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking [53.8]
    複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。 FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 15:39:11 GMT)
  • 「Our core idea is to embed visual construction into a model’s reasoning trajectory. Concretely, for each problem input, FIGR enters a multi-turn reasoning loop in which it can interleave pure textual rea- soning and executable code to generate diagrams – much like a human drawing intermediate sketches while reasoning.」というアプローチによる推論過程での図形データの活用手法の提案。
  • リポジトリはGitHub – chenmeiqii/FIGR: Official implementation of “Figure It Out: Improve the Frontier of Reasoning with Active Visual Thinking”

Enhancing LLM Planning Capabilities through Intrinsic Self-Critique

  • Enhancing LLM Planning Capabilities through Intrinsic Self-Critique [34.8]
    検証器などの外部ソースを使わずに、本質的な自己批判を通じてデータセットを計画する際の顕著な性能向上を示す。 自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 09:23:25 GMT)
  • 「Each iteration of the self-improvement mechanism comprises two key steps: i) plan generation and ii) self-critiquing, aimed at iteratively refining LLM outputs. In step i), the LLM generates a plan (symbolized by a map) based on a prompt incorporating domain-specific knowledge and instructions (symbolized by the treasure chest). Step ii) involves a self-critique mechanism where the LLM evaluates its own performance, providing correctness assessments and justifications, again leveraging domain knowledge.」と自己批判による改善手法の提案。
  • それなりに使われるテクニックであるとは思うのだが、イテレーションを含めしっかりと検証されていてとても参考になる。

OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models 

  • OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4]
    クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 08:29:50 GMT)
  • 「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。
  • リポジトリはGitHub – numbmelon/OS-OracleOS-Copilot/OS-Critic-Bench · Datasets at Hugging Face

Scaling Open-Ended Reasoning to Predict the Future 

  • Scaling Open-Ended Reasoning to Predict the Future [56.7]
    我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。 トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。 トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 18:59:51 GMT)
  • 「If trained at scale for forecasting world events, Large Language Models (LLMs) may enjoy structural advantages over humans: they can ingest and synthesize vast, heterogeneous corpora across thousands of topics; and update predictions rapidly as new information arrives. Just like language models now show superhuman reasoning on some exam-style math and coding problems (OpenAI, 2025), in the future, language model forecasters may be able to come up with possibilities that humans miss.」というモチベーションの研究。難しいタスクであり、Leakageの影響も懸念されるが、かなり慎重にデータを扱っている印象。
  • プロジェクトサイトはScaling Open-Ended Reasoning to Predict the Future、リポジトリはGitHub – OpenForecaster/scaling-forecasting-training: Codebase from our first release.

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents 

  • MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.5]
    MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。 ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 14:51:52 GMT)
  • 「MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro.」などSoTAを主張。実用レベルに達しつつある印象。
  • リポジトリはGitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

  • ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.2]
    そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。 ShowUI-$$は、たった450万のパラメータで26.98を達成する。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 16:51:14 GMT)
  • 「ShowUI-π highlights the following architecture: (i) Unified Discrete-Continuous Actions: ShowUI-π casts discrete clicks as drags with negligible movements, and integrates them with continuous drags into a unified modeling. Under this formulation, both action types are represented by a sequence of (x,y,m) triplets, where (x,y) are cursor coordinates and m ∈ {down,up} is the mouse button state. This unified design allows ShowUI-π to handle both drag and click tasks with a single shared model, adapting without task-specific head selection.」と他のGUI Agentとはデータの扱い方が異なるフレームワークの提案。
  • プロジェクトサイトはShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

  • A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
    LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 18:59:27 GMT)
  • 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
  • リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos