コンテンツへスキップ
- Rethinking Tabular Data Understanding with Large Language Models [39.4]
本研究では,大規模言語モデル(LLM)のテーブル構造摂動に対する堅牢性について検討する。 我々は,同じ内容を示す表の構造的差異が,特に記号的推論タスクにおいて顕著な性能低下を示すことを示した。 テキストおよび記号的推論経路の集約は, 混合自己整合機構によって促進され, SOTA性能が73.6%向上し, WIKITABLEQUESTIONSの精度が向上した。
論文 参考訳(メタデータ) (Wed, 27 Dec 2023 19:58:52 GMT)
- 簡単そうで意外と難しいLLMでテーブルデータを扱うときのテクニックに関する報告。正規化過程では「‘row tables’ with headers in the first column」に変換するとのこと。こちらの形式のほうが処理しやすいのは納得感がある。加えてAppendicesがとても良い。
- TabLLM: Few-shot Classification of Tabular Data with Large Language Models [66.0]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。 テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。 このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (Wed, 19 Oct 2022 17:08:13 GMT)- 大規模言語モデルを用いたテーブルデータ処理。(現実的に使えるかは置いておいて)few-shot設定では優れた性能。言語モデルで取り扱えるようにする過程で情報が与えられているようにも思うが、これはこれで新たなモデル構築のように見えなくもない。
- Transfer Learning with Deep Tabular Models [66.7]
正確性はさておき、ニューラルモデルの大きな利点は、再利用可能な機能を学び、新しいドメインで簡単に微調整できることだ。上流データにより、ニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。 そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。 上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 30 Jun 2022 14:24:32 GMT)
- MET: Masked Encoding for Tabular Data [29.2]
Masked SSL for Tabular Data (MET)は、ビジョンSSLのための人気のあるMAEアプローチに基づいている。 METは5つの多様なデータセット上で、新しい最先端技術(SOTA)を実現する。 私たちは、慎重に設計されたシンプルなデータセットの実験を通じて、METの作業にもっと光を当てました。
論文 参考訳(メタデータ) (Fri, 17 Jun 2022 05:51:10 GMT)- テーブルデータに対するSSL
- 面白い研究だとは思うし、著者の比較方法が不明で何とも言えないところはあるが、CovTypeやIncomeは普通にXGB/LGBの方がスコアが高そうな気がする。
- TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である 異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 19 May 2022 05:34:46 GMT)
- Table2Vec: Automated Universal Representation Learning to Encode All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science [34.2]
本稿では,顧客などのエンティティの自動普遍的表現学習のためのニューラルエンコーダTable2Vecを紹介する。 学習された普遍的な表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能する。 Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。
論文 参考訳(メタデータ) (Fri, 3 Dec 2021 10:39:25 GMT)- テーブルデータに対する2vec、様々な形態のデータを分散表現にできるとのことで、直感的に様々なところで使えそうな一方でleak対策がどうなっているかが気にかかる。
- Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data [36.1]
タブラルデータセットは、ディープラーニングのための最後の”未完成の城”である。 Gradient Boosted Decision Treesのような従来のMLメソッドは、最近の特殊なニューラルネットワークに対してさえ、強く機能している。 13の正則化手法の最適組み合わせ/カクテルを探索し,平面多層パーセプトロン(MLP)ネットワークの正則化を提案する。
論文 参考訳(メタデータ) (Mon, 21 Jun 2021 15:27:43 GMT)- (i)高度に正則化されたプレーンなMLPが最近の最先端の専門的ニューラルネットワークアーキテクチャを著しく上回り,(ii)XGBoostのような強力なML手法よりも優れているとの報告。
- (balanced accuracyだからか?)表の中に出てくるスコアに低すぎるっぽいものもあり要精査な印象。
- SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training [45.1]
タブラルデータは、機械学習の多くのハイインパクトな応用を支えている。 近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 提案手法であるSAINTは,行と列の双方に注意を向ける。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 2 Jun 2021 17:51:05 GMT)- テーブルデータに対してTransformerを用いるという論文。データセットによってはLightGBMやXGBoost、CatBoostといった勾配ブースティング系の手法よりも精度が高いとのこと。下記のTabTransformerもだが表形式データに対してもDeep Learning系のアプローチが有効な場合があるのは興味深い。Transformerが有用な構造なのか、データセットがフィットしているだけなのかは謎。
- 同論文ではMLPが有効な場合があったり、XGB, LGBで差がありすぎのように思えるデータセットがあったりする(ハイパーパラメータの問題?)ので、最終的にはいろいろ試してみる事は必要なんだろうと思う。
- TabTransformer: Tabular Data Modeling Using Contextual Embeddings [23.5]
教師付きおよび半教師付き学習のための新しい深層データモデリングアーキテクチャであるTabTransformerを提案する。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 半教師付き環境では、データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し、その結果、最先端の手法を平均2.1%のAUCリフトする。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 11 Dec 2020 23:31:23 GMT)