Table – arXiv最新論文の紹介

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [70.5]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。 MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。 MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文参考訳（メタデータ） (Thu, 05 Jun 2025 21:05:03 GMT)
「We show that MMTU require a combination of skills – includ- ing table understanding, reasoning, and coding – that remain challenging for today’s frontier models, where even frontier reasoning models like OpenAI o4- mini and DeepSeek R1 score only around 60%, suggesting significant room for improvement.」という数表を扱うベンチマーク
リポジトリはGitHub – MMTU-Benchmark/MMTU、データはMMTU-benchmark/MMTU · Datasets at Hugging Face

AIGT: AI Generative Table Based on Prompt

AIGT: AI Generative Table Based on Prompt [32.5]
我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。 20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 02:51:06 GMT)
テーブルの合成に関する提案。
良いモデルを得るためにはよい合成データを作る、とか、良いCriticモデルを作るとか、そういうアプローチが重要になっている気がする。

Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding

Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.8]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文参考訳（メタデータ） (Wed, 13 Nov 2024 11:02:04 GMT)
大規模なテーブルデータを推論するために木構造を用いるアプローチの提案
「Starting with a large-scale input table, the process selectively condenses the data, emphasizing task-relevant information. Subsequently, the decomposed elements are methodically reorganized into a Table-Tree, a hierarchical structure designed to streamline and guide the subsequent reasoning process.」ということがプロンプトベースで可能なのも凄いなと思う。効果はありそう。

TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning

TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.1]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文参考訳（メタデータ） (Wed, 18 Sep 2024 06:19:59 GMT)
表形式を扱うためのフレームワーク、「TART consists of a table formatter for accurate data representation, a tool maker for creating specialized tools, and an explanation generator maintaining interpretable explanations.」とのこと。ベンチマークも考案しており、効果を確認。
リポジトリはGitHub – XinyuanLu00/TART: This is the repository for TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning

TableBench

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文参考訳（メタデータ） (Sat, 17 Aug 2024 11:40:10 GMT)
TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
リポジトリはTableBench Homepage

Why Tabular Foundation Models Should Be a Research Priority

Why Tabular Foundation Models Should Be a Research Priority [65.8]
テーブルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文参考訳（メタデータ） (Thu, 02 May 2024 10:05:16 GMT)
Large Tabular Model、欲しいと思いつつ汎用的にできるのか＆コストが見合うのかは論文を読んでなお結構疑問

TableLLM

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.7]
我々は13億のパラメータを持つ堅牢な大規模言語モデル(LLM)であるTableLLMを紹介する。本稿では,推論プロセス拡張戦略を含む遠隔トレーニングのための遠隔監視手法を提案する。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションを公開した。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 11:21:12 GMT)
LLMで意外と取り扱いづらい表形式への対応。SFT用データをデータ生成・拡張で作ったのちCodeLlamaベースで構築。13Bで「TableLLM performs comparably to GPT-3.5 and even surpasses GPT-4 in the spreadsheet-embedded scenario.」とのこと。
リポジトリはTableLLM

Doc2SoarGraph

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (Thu, 4 May 2023 10:02:39 GMT)
報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

LLMの拡張、テーブルデータを併用した推論への応用

GPT-#で大規模言語モデルが話題になっているが、その拡張を行う研究も非常に盛ん。

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [55.7]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 13:27:01 GMT)
LLMのマルチモーダル化、まずVisual Encoder/Visual AbstractorをLLMを凍結して事前学習、その後LoRAを用いてLLMのInstruction tuning
リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality

Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning [45.0]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 11:24:10 GMT)
Table データを併用した推論へのLLM適用、 Decompose evidence And questions for effective Table-basEd Reasoning (DATER)提案、優れた性能を達成。初めてTabFactで人間のパフォーマンスを超えたとのこと。
テーブルデータの分解、質問の分解、SQLクエリへの変換・実行、 in-context prompting とLLM関連のテクニックが高度に使われている印象で問題の解き方がとても参考になる

Long Text and Multi-Table Summarization: Dataset and Method

Long Text and Multi-Table Summarization: Dataset and Method [20.9]
FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 00:46:55 GMT)
年次レポートからの要約データセット。長文と表データの取り扱いが必要な構成になっている。年次報告書の特性からして結構当たるんじゃないかなと思わなくもない気がしていて（著者もやっているが）データ自体の分析を行ってみたいところ。
リポジトリはGitHub – StevenLau6/FINDSum: A Large-Scale Dataset for Long Text and Multi-Table Summarization

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31