AutoML – arXiv最新論文の紹介

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文参考訳（メタデータ） (Sun, 27 Oct 2024 12:44:25 GMT)
Kaggleのようなデータ分析の自動化。対象としているタスク（分析フェーズ）は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
リポジトリはGitHub – multimodal-art-projection/AutoKaggle

AutoMLの実際

AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 17:06:46 GMT)
AutoMLの実践（課題と対策）についてインタビュー（19人）から整理した論文
実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

The Technological Emergence of AutoML: A Survey of Performant Software and Applications in the Context of Industry

The Technological Emergence of AutoML: A Survey of Performant Software and Applications in the Context of Industry [72.1]
Automated/Autonomous Machine Learning (AutoML/AutonoML)は比較的若い分野である。このレビューは、このトピックに関する知識に2つの主要な貢献をしている。オープンソースと商用両方の既存のAutoMLツールについて、最新かつ包括的な調査を提供する。
論文参考訳（メタデータ） (Tue, 8 Nov 2022 10:42:08 GMT)
AutoMLのサーベイ、細部まで包括的で122ページ、引用数583と大規模

AutoMLとIoT

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective [10.4]
本稿では,AutoMLの領域におけるモデル選択,チューニング,手順の更新において,既存の手法の見直しを行う。我々の発見を正当化し、産業ユーザや研究者がAutoMLアプローチをよりうまく実装するのを助けるために、AutoMLをIoT異常検出問題に適用するケーススタディが実施されている。
論文参考訳（メタデータ） (Fri, 16 Sep 2022 16:02:56 GMT)
- IoTデータへのAutoML適用に関するサーベイ。前処理～モデル構築、そのアップデートに至るまでAutoML全般に対するサーベイとしても参考になる。100ページ超とほぼ本。
- リポジトリはWestern-OC2-Lab/AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics: Implementation/Tutorial of Automated Machine Learning (AutoML) methods for static/batch and online data analytics (github.com)

EasyNLP：AlibabaのNLPツールキット

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing [38.9]
EasyNLPは、NLPアプリケーションを簡単に構築できるように設計されている。知識に富んだ事前訓練、知識蒸留、数発の学習が特徴である。 EasyNLPはAlibaba Group内の10以上のビジネスユニットに電力を供給している。
論文参考訳（メタデータ） (Sat, 30 Apr 2022 13:03:53 GMT)
- Alibabaで使用されている（という）NLP用ツールキット。サンプルコードを見る限り非常に使いやすそうな（AutoML並み）印象。
- リポジトリはGitHub – alibaba/EasyNLP: EasyNLP: A Comprehensive and Easy-to-use NLP Toolkit、ライセンスがApache-2というのもありがたい。

Hyper-Tune: 高速なハイパーパラメータチューニングフレームワーク

Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale [40.4]
Hyper-Tuneは、効率的で堅牢な分散ハイパーパラメータチューニングフレームワークである。最先端のBOHBとA-BOHBを比較し、それぞれ11.2倍と5.1倍のスピードアップを達成している。
論文参考訳（メタデータ） (Tue, 18 Jan 2022 09:12:32 GMT)
- GitHub – automl/HpBandSter: a distributed Hyperband implementation on Steroidsなどで利用可能なBOHB (Bayesian optimization (BO) and Hyperband (HB))よりも優れた性能を発揮するハイパーパラメータのチューニングフレームワークの提案。
- 著者が関わっているopen-box/README.md at master · PKU-DAIR/open-box · GitHubに実装される（されている？）と思われる。

Automated Graph Machine Learningのサーベイ

Automated Graph Machine Learning: Approaches, Libraries and Directions [81.2]
我々は、グラフ機械学習のためのHPO(hyper-parameter optimization)とNAS(neural architecture search)をカバーする自動グラフマシンアプローチについて論じる。当社の専用かつ世界初のグラフ機械学習のためのオープンソースライブラリであるAutoGLを紹介します。本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。
論文参考訳（メタデータ） (Tue, 4 Jan 2022 18:31:31 GMT)
- グラフ構造の機械学習にもAutoMLの波がきているよう（KDD CUP2020もこのテーマ）
- リポジトリはGitHub – THUMNLab/awesome-auto-graph-learning: A paper collection about automated graph learning、AutoGLはGitHub – THUMNLab/AutoGL: An autoML framework & toolkit for machine learning on graphs.

環境を考慮したAutoML

Towards Green Automated Machine Learning: Status Quo and Future Directions [55.4]
AutoMLは数百のコントリビューションでホットな研究トピックになっている。非常に資源集約的であることも知られており、批判の要点の1つである。本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 18:57:27 GMT)
- AutoMLにおける環境考慮に関してまとめた論文、定量化への方針、アプローチ・設計、ベンチマーク、透明性などについて詳細に解説している。AIと環境保護へのかかわりを知るにも良い内容。

AutoML用ベンチマークデータセット

Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文参考訳（メタデータ） (Thu, 4 Nov 2021 09:29:16 GMT)
- AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to ﬁnd both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは？という印象。
- リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

AutoMTL: マルチタスク学習のAutoML

AutoMTL: A Programming Framework for Automated Multi-Task Learning [23.4]
マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 MTLの普及を妨げている大きな障壁は、コンパクトなマルチタスクモデルを開発するための体系的なサポートの欠如である。 MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発した。
論文参考訳（メタデータ）参考訳（全文） (Mon, 25 Oct 2021 16:13:39 GMT)
- マルチタスク学習用のAutoMLフレームワーク。３種類のベンチマークで省メモリかつ優れた結果を出したとのこと。
- リポジトリはhttps://github.com/zhanglijun95/AutoMTL

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31