GPT-5.1, ERNIE 5, Marble, SIMA2

先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。

動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models / Does TabPFN Understand Causal Structures? / TransactionGPT 

  • TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models [76.5]
    TabPFN-2.5は5万のデータポイントと2,000の機能を持つデータセット用に構築されている。 チューニングされたツリーベースモデルとAutoGluon 1.4の精度を大幅に上回った。 生産用として,TabPFN-2.5を小型または木製アンサンブルに変換する新しい蒸留エンジンを導入する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:01:46 GMT)
  • テーブルデータに対する基盤モデルの提案、TabArena – a Hugging Face Space by TabArenaで「TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tree-based models and matching the accuracy of AutoGluon 1.4, a complex four-hour tuned ensemble that even includes the previous TabPFNv2. Remarkably, default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (≤10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).」と高性能を主張
  • Prior Labs
  • Does TabPFN Understand Causal Structures? [40.2]
    本研究では,TabPFNが内部表現に因果情報をエンコードするかどうかを検討する。 学習可能なデコーダと因果トークンを用いたアダプタフレームワークを開発した。 評価の結果,TabPFNの埋め込みには因果情報が含まれており,従来の因果発見アルゴリズムよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 15:53:15 GMT)
  • 「We show that TabPFN’s embeddings contain causal information and that our adaptor framework outperforms traditional causal discovery algorithms when causal information is extracted from mid- range layers. This further promotes leveraging pre-trained tabular models for extracting causal structures, improving the interpretability of these models, and aiding in scientific discovery.」と興味深い性質を報告。
  • TransactionGPT [41.9]
    TransactionGPTは、世界最大の決済ネットワーク内のコンシューマトランザクションデータの基盤モデルである。 本稿では,支払いトランザクションデータの複雑なダイナミクスを捉えるために,新しい3D-Transformerアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:20:09 GMT)
  • Visa Researchによる基盤モデル。「TransactionGPT (TGPT), a foundation model that captures complex consumer shopping dynamics from Multi-Modal-Temporal-Tabular (MMTT) data.」、「Extensive experiments on large-scale, real-world payment data validate TGPT’s ability to learn meaningful transaction patterns, leading to significant performance improve- ments on critical downstream tasks. Furthermore, we quantify the benefits of several designs that enhance the TGPT’s efficiency and scalability.」とのこと。

Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

  • Intelligence per Watt: Measuring Intelligence Efficiency of Local AI [39.0]
    大規模言語モデル(LLM)クエリは、主に集中型クラウドインフラストラクチャのフロンティアモデルによって処理される。 小さなLMは、多くのタスクにおけるフロンティアモデルに対する競合的なパフォーマンスを実現しています。 集中インフラからの需要の再分配によるローカル推論は可能か? 本稿では,局所的推論の能力と効率を評価する指標として,1ワット当たりのインテリジェンス(IPW)を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 01:26:20 GMT)
  • 「Intelligence per Watt」という指標の提案。「we show that intelligence per watt has improved 5.3× from 2023-2025 through compounding advances in both model architectures (3.1×) and hardware accelerators (1.7×), with locally-serviceable query coverage increasing from 23.2% to 71.3%.」とのこと。感覚的にも納得感のある結果。