A Survey of Table Reasoning with Large Language Models

  • A Survey of Table Reasoning with Large Language Models [55.2]
    大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。 本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
    論文  参考訳(メタデータ)   (Tue, 13 Feb 2024 07:17:52 GMT)
  • LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
  • ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を 引き出すことが重要という感じなんだろうか。

Chain-of-Table

  • Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
    そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 07:46:26 GMT)
  • 表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
  • 一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと

TabMWP: Tabular Math Word Problem

  • Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
    数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 08:01:04 GMT)
    • 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。

PeaQA: Parameter, Efficient, Abstractive Question Answering

  • Parameter-Efficient Abstractive Question Answering over Tables or Text [60.9]
    QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。 メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。 パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 7 Apr 2022 10:56:29 GMT)
    • 構造化表データと非構造化テキストデータの両方を扱え、パラメータ効率の高いアーキテクチャの提案。 tabular QA ではSoTA、textual QA でも競争力のあるパフォーマンスを達成とのこと。

非構造文書からのテーブル構造推定と抽出

  • Scientific evidence extraction [0.0]
    我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。 PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Sep 2021 19:42:07 GMT)
    • 簡単そうで(?)難しいPDFドキュメント内表形式データの認識とデータ抽出に関する論文。大規模(948K≒1M)なデータセットPubTable-1Mを作成、DETR(Detection Transformer)を TD (Table Detection), TSR(Table Structure Recognition), FA (Functional Analysis)に適用、優れた性能を達成したとのこと。
    • リポジトリはhttps://github.com/microsoft/table-transformer

MATE(Multi-view Attention for Table transformer Efficiency): 大きなテーブルを含む文書をモデル化

  • MATE: Multi-view Attention for Table Transformer Efficiency [21.5]
    ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。 現在のTransformerモデルは一般的に512トークンに制限されている。 本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 14:39:30 GMT)
    • WEBページなどによくあるテーブル構造をモデル化可能な(シーケンス長が長く効率的な)transformerモデルを提案、HybridQAなどでsotaとのこと。
    • 一般的に表形式データが混在したWEBページの扱いは難しいのでこの研究には興味津々。