AutoML vs 人間によるモデル構築

  • Man versus Machine: AutoML and Human Experts’ Role in Phishing Detection [4.1]
    本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。 以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 09:26:20 GMT)
    • AutoMLと手作業で作成したモデルを比較、AutoMLの方が優れていた…という報告。なのだが、手作業のモデルはAutoMLと同じデータ(1 Tableのデータ)でscikit-learnの手法(Logistic Regression, SVM, KNN, Decision Tree, Random Forest, Multi-layer Perceptron, Gaussian Naive Bayes)+手作業でハイパーパラメータをランダムサーチでチューニングしただけ。比較方法がイマイチな気がする。
    • 手作業というからには特徴量作成部分がキーになるはずだし、比較対象にはLightGBMやXGB辺りは入れるべきと思う。複数テーブルのデータに対してドメイン知識に基づいて特徴量作れば挙げられたAutoMLには負けないのではないかと思う。
      • 複数テーブルを扱えるAutoMLの実装は多くなくこれはこれでフェアじゃないかもだが。(放置しているけど)筆者が作っているFuguMLは複数テーブルを扱える実装になっていて未だにテーブル結合に対応した実装が少ないのは謎。
    • 色々言いたいことはあるが、AutoMLの実装によって精度に意外な差があるのが面白い。ドメイン知識を持つ専門家がパイプラインのループに不可欠であるという指摘はその通りだと思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です