テーブルデータ – arXiv最新論文の紹介

A Survey of Table Reasoning with Large Language Models

A Survey of Table Reasoning with Large Language Models [55.2]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文参考訳（メタデータ） (Tue, 13 Feb 2024 07:17:52 GMT)
LLMで表形式データを扱う場合のサーベイ。実務上扱う場面は多く苦労することも多い。
ベンチマーク×アプローチで性能が整理されているのがありがたい。instruction designとin-context learningが有望そうという結果。感覚的には別のモーダルだが、事前学習では相応に取り入れられていてうまくLLMの能力を引き出すことが重要という感じなんだろうか。

Tabular Data: Is Attention All You Need?

Tabular Data: Is Attention All You Need? [23.8]
本稿では、ニューラルネットワークと、構造データ上の勾配ブースト決定木を比較した大規模な実証的研究を紹介する。これまでの研究とは対照的に、ニューラルネットワークは決定木と競合することを示している。
論文参考訳（メタデータ） (Tue, 6 Feb 2024 12:59:02 GMT)
テーブルデータのおけるNN系手法、ツリー系手法の比較。一般的にテーブルデータではツリー系手法の強さが目立つが、そうでもないとの報告。Transformer系手法は十分な性能を出せていないのでは？とのこと
平均的にはResNeXtが優秀という意外な（？）結果、スタッキングでどうなるかも興味がある。

Rethinking Tabular Data Understanding with Large Language Models

Rethinking Tabular Data Understanding with Large Language Models [39.4]
本研究では,大規模言語モデル(LLM)のテーブル構造摂動に対する堅牢性について検討する。我々は,同じ内容を示す表の構造的差異が,特に記号的推論タスクにおいて顕著な性能低下を示すことを示した。テキストおよび記号的推論経路の集約は, 混合自己整合機構によって促進され, SOTA性能が73.6%向上し, WIKITABLEQUESTIONSの精度が向上した。
論文参考訳（メタデータ） (Wed, 27 Dec 2023 19:58:52 GMT)
簡単そうで意外と難しいLLMでテーブルデータを扱うときのテクニックに関する報告。正規化過程では「‘row tables’ with headers in the first column」に変換するとのこと。こちらの形式のほうが処理しやすいのは納得感がある。加えてAppendicesがとても良い。

TabR

TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning [18.6]
近年,テーブルデータの深層学習問題に対する検索モデルが提案されている。既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:58:07 GMT)
テーブルデータに対して有効なretrieval-augmented tabular DL model、TabRを提案。有効を確認とのこと。テーブルデータに対してはDeep系モデルでXGB、LGB、Catboostに勝利するのはなかなか大変という印象はあるが、TabRはGBDTに勝ち越しているとのこと。（とはいえ「Tree-based models, in turn, remain a more efficient solution.」という記載はある）
リポジトリはGitHub – yandex-research/tabular-dl-tabr: The implementation of “TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning”

TabLLM

TabLLM: Few-shot Classification of Tabular Data with Large Language Models [66.0]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文参考訳（メタデータ） (Wed, 19 Oct 2022 17:08:13 GMT)
- 大規模言語モデルを用いたテーブルデータ処理。（現実的に使えるかは置いておいて）few-shot設定では優れた性能。言語モデルで取り扱えるようにする過程で情報が与えられているようにも思うが、これはこれで新たなモデル構築のように見えなくもない。

テーブルデータに対するTransfer Learning

Transfer Learning with Deep Tabular Models [66.7]
正確性はさておき、ニューラルモデルの大きな利点は、再利用可能な機能を学び、新しいドメインで簡単に微調整できることだ。上流データにより、ニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 30 Jun 2022 14:24:32 GMT)
- テーブルデータに対してはいまだにGBDTが良く用いられるが、Transfer Learningを行う場合はDeep Learningに利点があるという指摘。
  - 確かにその通りという印象。
- リポジトリはGitHub – LevinRoman/tabular-transfer-learning: A repo for transfer learning with deep tabular models

MET: Masked Encoding for Tabular Data

MET: Masked Encoding for Tabular Data [29.2]
Masked SSL for Tabular Data (MET)は、ビジョンSSLのための人気のあるMAEアプローチに基づいている。 METは5つの多様なデータセット上で、新しい最先端技術(SOTA)を実現する。私たちは、慎重に設計されたシンプルなデータセットの実験を通じて、METの作業にもっと光を当てました。
論文参考訳（メタデータ） (Fri, 17 Jun 2022 05:51:10 GMT)
- テーブルデータに対するSSL
- 面白い研究だとは思うし、著者の比較方法が不明で何とも言えないところはあるが、CovTypeやIncomeは普通にXGB/LGBの方がスコアが高そうな気がする。

TransTab: テーブルデータの埋め込み

TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である異なる列の異なるテーブルをマージするには重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 19 May 2022 05:34:46 GMT)
- テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
  - 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
- リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model

Table2Vec: 顧客データに対する表現学習

Table2Vec: Automated Universal Representation Learning to Encode All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science [34.2]
本稿では,顧客などのエンティティの自動普遍的表現学習のためのニューラルエンコーダTable2Vecを紹介する。学習された普遍的な表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能する。 Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。
論文参考訳（メタデータ） (Fri, 3 Dec 2021 10:39:25 GMT)
- テーブルデータに対する2vec、様々な形態のデータを分散表現にできるとのことで、直感的に様々なところで使えそうな一方でleak対策がどうなっているかが気にかかる。

Regularization is all you Need

Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data [36.1]
タブラルデータセットは、ディープラーニングのための最後の”未完成の城”である。 Gradient Boosted Decision Treesのような従来のMLメソッドは、最近の特殊なニューラルネットワークに対してさえ、強く機能している。 13の正則化手法の最適組み合わせ/カクテルを探索し,平面多層パーセプトロン(MLP)ネットワークの正則化を提案する。
論文参考訳（メタデータ） (Mon, 21 Jun 2021 15:27:43 GMT)
- (i)高度に正則化されたプレーンなMLPが最近の最先端の専門的ニューラルネットワークアーキテクチャを著しく上回り,(ii)XGBoostのような強力なML手法よりも優れているとの報告。
- （balanced accuracyだからか？）表の中に出てくるスコアに低すぎるっぽいものもあり要精査な印象。

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30