AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions 

  • AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [47.7]
    AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。 データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。 AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
    論文  参考訳(メタデータ)   (Sun, 27 Oct 2024 12:44:25 GMT)
  • Kaggleのようなデータ分析の自動化。対象としているタスク(分析フェーズ)は「background understanding, preliminary exploratory data analysis, data cleaning (DC), in-depth exploratory data analysis, feature engineering (FE), and model building, validation, and prediction (MBVP).」で通常のAutoMLより広い、対象データはテーブルデータのよう。
  • 「As our analysis relies on GPT-4o, which is trained on data available until October 2023, it includes most of the Classic Kaggle competitions.To evaluate the generalization capabilities of AutoKaggle, we therefore focus on competitions initiated after 2024.」とLeakには気を使っているとはいえ、「Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.」という言いきりは凄い。もっとも、今のLLMの性能からして適切なパイプラインを組めば解けそうな問題であるという感覚はある。
  • リポジトリはGitHub – multimodal-art-projection/AutoKaggle

AutoMLの実際

  • AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
    本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 17:06:46 GMT)
  • AutoMLの実践(課題と対策)についてインタビュー(19人)から整理した論文
  • 実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

The Technological Emergence of AutoML: A Survey of Performant Software and Applications in the Context of Industry

  • The Technological Emergence of AutoML: A Survey of Performant Software and Applications in the Context of Industry [72.1]
    Automated/Autonomous Machine Learning (AutoML/AutonoML)は比較的若い分野である。 このレビューは、このトピックに関する知識に2つの主要な貢献をしている。 オープンソースと商用両方の既存のAutoMLツールについて、最新かつ包括的な調査を提供する。
    論文  参考訳(メタデータ)   (Tue, 8 Nov 2022 10:42:08 GMT)
  • AutoMLのサーベイ、細部まで包括的で122ページ、引用数583と大規模

AutoMLとIoT

EasyNLP:AlibabaのNLPツールキット

  • EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing [38.9]
    EasyNLPは、NLPアプリケーションを簡単に構築できるように設計されている。 知識に富んだ事前訓練、知識蒸留、数発の学習が特徴である。 EasyNLPはAlibaba Group内の10以上のビジネスユニットに電力を供給している。
    論文  参考訳(メタデータ)   (Sat, 30 Apr 2022 13:03:53 GMT)

Hyper-Tune: 高速なハイパーパラメータチューニングフレームワーク

Automated Graph Machine Learningのサーベイ

環境を考慮したAutoML

  • Towards Green Automated Machine Learning: Status Quo and Future Directions [55.4]
    AutoMLは数百のコントリビューションでホットな研究トピックになっている。 非常に資源集約的であることも知られており、批判の要点の1つである。 本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 18:57:27 GMT)
    • AutoMLにおける環境考慮に関してまとめた論文、定量化への方針、 アプローチ・設計、ベンチマーク、透明性などについて詳細に解説している。AIと環境保護へのかかわりを知るにも良い内容。

AutoML用ベンチマークデータセット

  • Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
    テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 09:29:16 GMT)
    • AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
    • リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

AutoMTL: マルチタスク学習のAutoML

  • AutoMTL: A Programming Framework for Automated Multi-Task Learning [23.4]
    マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 MTLの普及を妨げている大きな障壁は、コンパクトなマルチタスクモデルを開発するための体系的なサポートの欠如である。 MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 16:13:39 GMT)
    • マルチタスク学習用のAutoMLフレームワーク。3種類のベンチマークで省メモリかつ優れた結果を出したとのこと。
    • リポジトリはhttps://github.com/zhanglijun95/AutoMTL