テーブルデータをTransformerで扱う

SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training [45.1]
タブラルデータは、機械学習の多くのハイインパクトな応用を支えている。近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。提案手法であるSAINTは,行と列の双方に注意を向ける。
論文参考訳（メタデータ）参考訳（全文） (Wed, 2 Jun 2021 17:51:05 GMT)
- テーブルデータに対してTransformerを用いるという論文。データセットによってはLightGBMやXGBoost、CatBoostといった勾配ブースティング系の手法よりも精度が高いとのこと。下記のTabTransformerもだが表形式データに対してもDeep Learning系のアプローチが有効な場合があるのは興味深い。Transformerが有用な構造なのか、データセットがフィットしているだけなのかは謎。
- 同論文ではMLPが有効な場合があったり、XGB, LGBで差がありすぎのように思えるデータセットがあったりする（ハイパーパラメータの問題？）ので、最終的にはいろいろ試してみる事は必要なんだろうと思う。

TabTransformer: Tabular Data Modeling Using Contextual Embeddings [23.5]
教師付きおよび半教師付き学習のための新しい深層データモデリングアーキテクチャであるTabTransformerを提案する。トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。半教師付き環境では、データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し、その結果、最先端の手法を平均2.1%のAUCリフトする。
論文参考訳（メタデータ）参考訳（全文） (Fri, 11 Dec 2020 23:31:23 GMT)

コメントを残す

コメントを残す コメントをキャンセル