AutoML vs 人間によるモデル構築

  • Man versus Machine: AutoML and Human Experts’ Role in Phishing Detection [4.1]
    本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。 以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 09:26:20 GMT)
    • AutoMLと手作業で作成したモデルを比較、AutoMLの方が優れていた…という報告。なのだが、手作業のモデルはAutoMLと同じデータ(1 Tableのデータ)でscikit-learnの手法(Logistic Regression, SVM, KNN, Decision Tree, Random Forest, Multi-layer Perceptron, Gaussian Naive Bayes)+手作業でハイパーパラメータをランダムサーチでチューニングしただけ。比較方法がイマイチな気がする。
    • 手作業というからには特徴量作成部分がキーになるはずだし、比較対象にはLightGBMやXGB辺りは入れるべきと思う。複数テーブルのデータに対してドメイン知識に基づいて特徴量作れば挙げられたAutoMLには負けないのではないかと思う。
      • 複数テーブルを扱えるAutoMLの実装は多くなくこれはこれでフェアじゃないかもだが。(放置しているけど)筆者が作っているFuguMLは複数テーブルを扱える実装になっていて未だにテーブル結合に対応した実装が少ないのは謎。
    • 色々言いたいことはあるが、AutoMLの実装によって精度に意外な差があるのが面白い。ドメイン知識を持つ専門家がパイプラインのループに不可欠であるという指摘はその通りだと思う。

機械学習における再現性の確保ガイド

  • A Guide to Reproducible Research in Signal Processing and Machine Learning [9.7]
    2016年にNature誌が行った調査によると、研究者の50%が自身の実験を再現できなかった。 我々は,再現可能な計算実験を生成する上での障害の多くを軽減するための,実用的なツールと戦略のセットを,信号処理研究者に提供することを目的とする。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 16:42:32 GMT)
    • 再現性を確保するためのガイド。データとコードだけあれば再現できる、、、わけではなく正しいやり方で正しいツールを使うことを推奨している。書かれているのは「最低限やるべきこと」というイメージでもっと流行りのアプローチもあるような気がするが、重要な指摘であることには違いない。