コンテンツへスキップ
- TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models [76.5]
TabPFN-2.5は5万のデータポイントと2,000の機能を持つデータセット用に構築されている。 チューニングされたツリーベースモデルとAutoGluon 1.4の精度を大幅に上回った。 生産用として,TabPFN-2.5を小型または木製アンサンブルに変換する新しい蒸留エンジンを導入する。
論文 参考訳(メタデータ) (Thu, 13 Nov 2025 01:01:46 GMT)
- テーブルデータに対する基盤モデルの提案、TabArena – a Hugging Face Space by TabArenaで「TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tree-based models and matching the accuracy of AutoGluon 1.4, a complex four-hour tuned ensemble that even includes the previous TabPFNv2. Remarkably, default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (≤10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).」と高性能を主張
- Prior Labs
- Does TabPFN Understand Causal Structures? [40.2]
本研究では,TabPFNが内部表現に因果情報をエンコードするかどうかを検討する。 学習可能なデコーダと因果トークンを用いたアダプタフレームワークを開発した。 評価の結果,TabPFNの埋め込みには因果情報が含まれており,従来の因果発見アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (Mon, 10 Nov 2025 15:53:15 GMT)
- 「We show that TabPFN’s embeddings contain causal information and that our adaptor framework outperforms traditional causal discovery algorithms when causal information is extracted from mid- range layers. This further promotes leveraging pre-trained tabular models for extracting causal structures, improving the interpretability of these models, and aiding in scientific discovery.」と興味深い性質を報告。
- TransactionGPT [41.9]
TransactionGPTは、世界最大の決済ネットワーク内のコンシューマトランザクションデータの基盤モデルである。 本稿では,支払いトランザクションデータの複雑なダイナミクスを捉えるために,新しい3D-Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (Thu, 13 Nov 2025 01:20:09 GMT)
- Visa Researchによる基盤モデル。「TransactionGPT (TGPT), a foundation model that captures complex consumer shopping dynamics from Multi-Modal-Temporal-Tabular (MMTT) data.」、「Extensive experiments on large-scale, real-world payment data validate TGPT’s ability to learn meaningful transaction patterns, leading to significant performance improve- ments on critical downstream tasks. Furthermore, we quantify the benefits of several designs that enhance the TGPT’s efficiency and scalability.」とのこと。
- Intelligence per Watt: Measuring Intelligence Efficiency of Local AI [39.0]
大規模言語モデル(LLM)クエリは、主に集中型クラウドインフラストラクチャのフロンティアモデルによって処理される。 小さなLMは、多くのタスクにおけるフロンティアモデルに対する競合的なパフォーマンスを実現しています。 集中インフラからの需要の再分配によるローカル推論は可能か? 本稿では,局所的推論の能力と効率を評価する指標として,1ワット当たりのインテリジェンス(IPW)を提案する。
論文 参考訳(メタデータ) (Wed, 12 Nov 2025 01:26:20 GMT)
- 「Intelligence per Watt」という指標の提案。「we show that intelligence per watt has improved 5.3× from 2023-2025 through compounding advances in both model architectures (3.1×) and hardware accelerators (1.7×), with locally-serviceable query coverage increasing from 23.2% to 71.3%.」とのこと。感覚的にも納得感のある結果。
- UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs [115.9]
UniLIONは、大規模なLiDAR点雲、高解像度のマルチビュー画像、さらには時間的シーケンスを効率的に処理する。 UniLIONは、幅広いコアタスクにわたって、競争力と最先端のパフォーマンスを一貫して提供します。
論文 参考訳(メタデータ) (Mon, 03 Nov 2025 17:24:19 GMT)
- 「We propose UniLION, a unified model that achieves both latent temporal fusion and multimodal fusion in UniLION backbone by the linear group RNN, generating the unified BEV features that serve all autonomous driving tasks, including perception, prediction, and planning.」とRNNベースのマルチモーダルモデルの提案。「Unified Heterogeneous Inputs: Leveraging the superior long-range modeling capability and linear computational complexity of linear group RNNs, UniLION integrates multi-view images, LiDAR point clouds, and temporal information into a unified 3D backbone through direct token concatenation, eliminating hand-crafted fusion modules and providing a more elegant, scalable solution.」ととてもマルチモーダル。
- リポジトリはGitHub – happinesslz/UniLION
- The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents [46.3]
本稿では,ソフトウェア開発エージェントを実装するツールキットであるOpenHands Software Agent SDKを紹介する。 柔軟性を達成するために、デフォルトケースで数行のコードしか必要としないエージェントを実装するためのシンプルなインターフェースを設計する。 セキュリティと信頼性のために、シームレスなローカル-リモート実行ポータビリティ、REST/WebSocketサービスの統合を提供する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 18:16:44 GMT)
- OpenHandsの論文。「Unlike prior library-only SDKs (Anthropic, 2025a; OpenAI, 2024), OpenHands includes a built-in REST/WebSocket server for remote execution and a suite of interactive workspace interfaces—a browser-based VSCode IDE, VNC desktop, and persistent Chromium browser—for human inspection and control.」と統合された環境としても優秀。
- リポジトリはGitHub – OpenHands/software-agent-sdk: A clean, modular SDK for building AI agents with OpenHands V1.
- Leveraging LLM-based agents for social science research: insights from citation network simulations [132.4]
CiteAgentフレームワークを導入し、人間-行動シミュレーションに基づく引用ネットワークを生成する。 CiteAgentは、実世界の引用ネットワークにおける主要な現象を捉えている。 社会科学において2つのLCMに基づく研究パラダイムを確立し,既存の理論の検証と挑戦を可能にした。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 08:47:04 GMT)
- 「To further explore the social attributes of LLMs, we introduce the CiteAgent framework, designed to generate citation networks based on human-behavior simulation with LLM-based agents. CiteAgent successfully captures predominant phenomena in real-world citation networks, including power-law distribution, citational distortion, and shrinking diameter.」とのことだが、これでこの手のLLMを活用した社会シミュレーション的なものの有効性をいえるかというと若干疑問のような。
- リポジトリはGitHub – Ji-Cather/CiteAgent: Official Implementation of CiteAgent Framework
- Thought Branches: Interpreting LLM Reasoning Requires Resampling [11.0]
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。 モデル決定のための再サンプリングを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (Fri, 31 Oct 2025 14:02:37 GMT)
- 「we can measure a partial CoT’s impact by resampling only the subsequent text. We present case studies using resampling to investigate model decisions. First, when a model states a reason for its action, does that reason actually cause the action?」と、CoTへの介入とその影響に関する報告。先行研究を含めて面白い動作分析。この報告では「We address this by repeatedly resampling to remove sentences and by measuring resilience, the number of interventions required to erase a sentence’s content from a trace. 」などCoTの過程の分布にも注目し計算コストは高いが納得性の高い手法を用いている。
- OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation [39.3]
Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。 2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。 私たちのコード、モデル、データセットは公開されます。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 07:39:54 GMT)
- 文書レイアウトのデータセットOmniLayout-1M及びOmniLayout-LLMの提案。
- 「Our code, models, and dataset will be publicly released.」とのこと
- MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.3]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。 それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。 我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (Tue, 04 Nov 2025 18:27:39 GMT)
- 「We introduce MemSearcher, an agentic workflow that leverages the backbone LLM as a memory manager to iteratively maintain a compact memory, preserving only the essential information necessary for answering the user’s question and thereby eliminating the need to append the entire interaction history to the LLM context. • We develop search agents based on MemSearcher, and utilize multi-context GRPO, a natural extension of GRPO, to optimize LLMs to reason, leverage search engines and manage memory simultaneously.」とメモリ関連の機能尾をうまく扱えるように強化学習されたモデルの提案。「MemSearcher based on Qwen2.5-3B-Instruct achieves a higher average score than other methods based on Qwen2.5-7B-Instruct.」と効果を確認。
- リポジトリはGitHub – icip-cas/MemSearcher
- Scaling Agent Learning via Experience Synthesis [100.4]
強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 18:58:48 GMT)
- 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。