- Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (Thu, 4 Nov 2021 09:29:16 GMT)- AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
- リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。