TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models / Does TabPFN Understand Causal Structures? / TransactionGPT 

  • TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models [76.5]
    TabPFN-2.5は5万のデータポイントと2,000の機能を持つデータセット用に構築されている。 チューニングされたツリーベースモデルとAutoGluon 1.4の精度を大幅に上回った。 生産用として,TabPFN-2.5を小型または木製アンサンブルに変換する新しい蒸留エンジンを導入する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:01:46 GMT)
  • テーブルデータに対する基盤モデルの提案、TabArena – a Hugging Face Space by TabArenaで「TabPFN-2.5 is now the leading method for the industry standard benchmark TabArena (which contains datasets with up to 100,000 training data points), substantially outperforming tuned tree-based models and matching the accuracy of AutoGluon 1.4, a complex four-hour tuned ensemble that even includes the previous TabPFNv2. Remarkably, default TabPFN-2.5 has a 100% win rate against default XGBoost on small to medium-sized classification datasets (≤10,000 data points, 500 features) and a 87% win rate on larger datasets up to 100K samples and 2K features (85% for regression).」と高性能を主張
  • Prior Labs
  • Does TabPFN Understand Causal Structures? [40.2]
    本研究では,TabPFNが内部表現に因果情報をエンコードするかどうかを検討する。 学習可能なデコーダと因果トークンを用いたアダプタフレームワークを開発した。 評価の結果,TabPFNの埋め込みには因果情報が含まれており,従来の因果発見アルゴリズムよりも優れていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 15:53:15 GMT)
  • 「We show that TabPFN’s embeddings contain causal information and that our adaptor framework outperforms traditional causal discovery algorithms when causal information is extracted from mid- range layers. This further promotes leveraging pre-trained tabular models for extracting causal structures, improving the interpretability of these models, and aiding in scientific discovery.」と興味深い性質を報告。
  • TransactionGPT [41.9]
    TransactionGPTは、世界最大の決済ネットワーク内のコンシューマトランザクションデータの基盤モデルである。 本稿では,支払いトランザクションデータの複雑なダイナミクスを捉えるために,新しい3D-Transformerアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 13 Nov 2025 01:20:09 GMT)
  • Visa Researchによる基盤モデル。「TransactionGPT (TGPT), a foundation model that captures complex consumer shopping dynamics from Multi-Modal-Temporal-Tabular (MMTT) data.」、「Extensive experiments on large-scale, real-world payment data validate TGPT’s ability to learn meaningful transaction patterns, leading to significant performance improve- ments on critical downstream tasks. Furthermore, we quantify the benefits of several designs that enhance the TGPT’s efficiency and scalability.」とのこと。

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

  • MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.5]
    MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 21:05:03 GMT)
  • 「We show that MMTU require a combination of skills – includ- ing table understanding, reasoning, and coding – that remain challenging for today’s frontier models, where even frontier reasoning models like OpenAI o4- mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement.」という数表を扱うベンチマーク
  • リポジトリはGitHub – MMTU-Benchmark/MMTU、データはMMTU-benchmark/MMTU · Datasets at Hugging Face

AIGT: AI Generative Table Based on Prompt 

  • AIGT: AI Generative Table Based on Prompt [32.5]
    我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。 20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 02:51:06 GMT)
  • テーブルの合成に関する提案。
  • 良いモデルを得るためにはよい合成データを作る、とか、良いCriticモデルを作るとか、そういうアプローチが重要になっている気がする。

Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding 

  • Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.8]
    トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
    論文  参考訳(メタデータ)   (Wed, 13 Nov 2024 11:02:04 GMT)
  • 大規模なテーブルデータを推論するために木構造を用いるアプローチの提案
  • 「Starting with a large-scale input table, the process selectively condenses the data, emphasizing task-relevant information. Subsequently, the decomposed elements are methodically reorganized into a Table-Tree, a hierarchical structure designed to streamline and guide the subsequent reasoning process.」ということがプロンプトベースで可能なのも凄いなと思う。効果はありそう。

TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning 

  • TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.1]
    現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 06:19:59 GMT)
  • 表形式を扱うためのフレームワーク、「TART consists of a table formatter for accurate data representation, a tool maker for creating specialized tools, and an explanation generator maintaining interpretable explanations.」とのこと。ベンチマークも考案しており、効果を確認。
  • リポジトリはGitHub – XinyuanLu00/TART: This is the repository for TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning

TableBench

  • TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
    本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
    論文  参考訳(メタデータ)   (Sat, 17 Aug 2024 11:40:10 GMT)
  • TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
  • リポジトリはTableBench Homepage

Why Tabular Foundation Models Should Be a Research Priority

  • Why Tabular Foundation Models Should Be a Research Priority [65.8]
    テーブルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。 私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 10:05:16 GMT)
  • Large Tabular Model、欲しいと思いつつ汎用的にできるのか&コストが見合うのかは論文を読んでなお結構疑問

TableLLM

  • TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.7]
    我々は13億のパラメータを持つ堅牢な大規模言語モデル(LLM)であるTableLLMを紹介する。 本稿では,推論プロセス拡張戦略を含む遠隔トレーニングのための遠隔監視手法を提案する。 我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションを公開した。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 11:21:12 GMT)
  • LLMで意外と取り扱いづらい表形式への対応。SFT用データをデータ生成・拡張で作ったのちCodeLlamaベースで構築。13Bで「TableLLM performs comparably to GPT-3.5 and even surpasses GPT-4 in the spreadsheet-embedded scenario.」とのこと。
  • リポジトリはTableLLM

Doc2SoarGraph

  • Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
    視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。 具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。 我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 10:02:39 GMT)
  • 報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

LLMの拡張、テーブルデータを併用した推論への応用

GPT-#で大規模言語モデルが話題になっているが、その拡張を行う研究も非常に盛ん。

  • mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [55.7]
    mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。 トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:27:01 GMT)
  • LLMのマルチモーダル化、まずVisual Encoder/Visual AbstractorをLLMを凍結して事前学習、その後LoRAを用いてLLMのInstruction tuning
  • リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality
  • Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning [45.0]
    大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。 巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。 我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:24:10 GMT)
  • Table データを併用した推論へのLLM適用、 Decompose evidence And questions for effective Table-basEd Reasoning (DATER)提案、優れた性能を達成。初めてTabFactで人間のパフォーマンスを超えたとのこと。
  • テーブルデータの分解、質問の分解、SQLクエリへの変換・実行、 in-context prompting とLLM関連のテクニックが高度に使われている印象で問題の解き方がとても参考になる