テーブル – arXiv最新論文の紹介

A Survey of Table Reasoning with Large Language Models

A Survey of Table Reasoning with Large Language Models [55.2]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文参考訳（メタデータ） (Tue, 13 Feb 2024 07:17:52 GMT)
LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を引き出すことが重要という感じなんだろうか。

Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文参考訳（メタデータ） (Tue, 9 Jan 2024 07:46:26 GMT)
表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 08:01:04 GMT)
- 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。
- リポジトリはTabMWP

Parameter-Efficient Abstractive Question Answering over Tables or Text [60.9]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 10:56:29 GMT)
- 構造化表データと非構造化テキストデータの両方を扱え、パラメータ効率の高いアーキテクチャの提案。 tabular QA ではSoTA、textual QA でも競争力のあるパフォーマンスを達成とのこと。

Scientific evidence extraction [0.0]
我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
論文参考訳（メタデータ） (Thu, 30 Sep 2021 19:42:07 GMT)
- 簡単そうで（？）難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模（948K≒1M）なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
- リポジトリはhttps://github.com/microsoft/table-transformer

MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。現在のTransformerモデルは一般的に512トークンに制限されている。本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
論文参考訳（メタデータ） (Thu, 9 Sep 2021 14:39:30 GMT)
- WEBページなどによくあるテーブル構造をモデル化可能な（シーケンス長が長く効率的な）transformerモデルを提案、HybridQAなどでsotaとのこと。
- 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。