EasyNLP:AlibabaのNLPツールキット

  • EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing [38.9]
    EasyNLPは、NLPアプリケーションを簡単に構築できるように設計されている。 知識に富んだ事前訓練、知識蒸留、数発の学習が特徴である。 EasyNLPはAlibaba Group内の10以上のビジネスユニットに電力を供給している。
    論文  参考訳(メタデータ)   (Sat, 30 Apr 2022 13:03:53 GMT)

Hyper-Tune: 高速なハイパーパラメータチューニングフレームワーク

Automated Graph Machine Learningのサーベイ

環境を考慮したAutoML

  • Towards Green Automated Machine Learning: Status Quo and Future Directions [55.4]
    AutoMLは数百のコントリビューションでホットな研究トピックになっている。 非常に資源集約的であることも知られており、批判の要点の1つである。 本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 18:57:27 GMT)
    • AutoMLにおける環境考慮に関してまとめた論文、定量化への方針、 アプローチ・設計、ベンチマーク、透明性などについて詳細に解説している。AIと環境保護へのかかわりを知るにも良い内容。

AutoML用ベンチマークデータセット

  • Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
    テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 09:29:16 GMT)
    • AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
    • リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。

AutoMTL: マルチタスク学習のAutoML

  • AutoMTL: A Programming Framework for Automated Multi-Task Learning [23.4]
    マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 MTLの普及を妨げている大きな障壁は、コンパクトなマルチタスクモデルを開発するための体系的なサポートの欠如である。 MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 25 Oct 2021 16:13:39 GMT)
    • マルチタスク学習用のAutoMLフレームワーク。3種類のベンチマークで省メモリかつ優れた結果を出したとのこと。
    • リポジトリはhttps://github.com/zhanglijun95/AutoMTL

AutoML(Neural Architecture Search)に対する攻撃

  • On the Security Risks of AutoML [38.0]
    Neural Architecture Search(NAS)は、与えられたタスクに適したモデルを自動的に検索する、新たな機械学習パラダイムである。 手動で設計したモデルと比較すると、NAS生成モデルは様々な悪意ある攻撃に対して大きな脆弱性を被る傾向にある。 本稿では,セル深さの増大やスキップ接続の抑制など,このような欠点を軽減するための対策の可能性について論じる。
    論文  参考訳(メタデータ)   (Tue, 12 Oct 2021 14:04:15 GMT)
    • Neural Architecture Searchによるモデルは手動で設計した手法と比較して悪意のある攻撃の影響を受けやすいとの報告。NASでは学習時の早い段階で候補のモデルを評価するため、速く収束するモデルが選ばれる傾向があり、攻撃が容易とのこと。

LightAutoML: 軽量で高速なAutoMLフレームワーク

  • LightAutoML: AutoML Solution for a Large Financial Services Ecosystem [108.1]
    本稿では、ヨーロッパ大手金融サービス会社向けに開発されたLightAutoMLと呼ばれるAutoMLシステムについて述べる。 当社のフレームワークは、多数のアプリケーションに試験的にデプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Sep 2021 13:52:32 GMT)
    • 軽量・高速なAutoMLの紹介。テーブルデータを対象として「L2正則化な線形モデル、LightGBM、Catboost」+「Optunaを用いたTPE」で構成されている。与える情報はターゲットとテーブルデータ、それぞれの列がnumeric、category、datetimeのどれか?という情報とのこと。妥当な構成で妥当な結果が出るんだろうと思う。テーブル間結合に対応しているかは良く分からない。
      • 設計方針は以前紹介した「Fugu AutoML」と同じ(というかテーブルデータを対象とした多くのAutoMLフレームワークが同じような設計)、未公開バージョンではscikit-learn / statsmodelsによる線形回帰が実装されていたりするので設計思想も近しい。(といっても更新停止状態だけど・・・)
      • 個人的にはテーブル間結合機能の有無とLeakage発生回避の工夫が気になる。

AutoML vs 人間によるモデル構築

  • Man versus Machine: AutoML and Human Experts’ Role in Phishing Detection [4.1]
    本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。 以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 09:26:20 GMT)
    • AutoMLと手作業で作成したモデルを比較、AutoMLの方が優れていた…という報告。なのだが、手作業のモデルはAutoMLと同じデータ(1 Tableのデータ)でscikit-learnの手法(Logistic Regression, SVM, KNN, Decision Tree, Random Forest, Multi-layer Perceptron, Gaussian Naive Bayes)+手作業でハイパーパラメータをランダムサーチでチューニングしただけ。比較方法がイマイチな気がする。
    • 手作業というからには特徴量作成部分がキーになるはずだし、比較対象にはLightGBMやXGB辺りは入れるべきと思う。複数テーブルのデータに対してドメイン知識に基づいて特徴量作れば挙げられたAutoMLには負けないのではないかと思う。
      • 複数テーブルを扱えるAutoMLの実装は多くなくこれはこれでフェアじゃないかもだが。(放置しているけど)筆者が作っているFuguMLは複数テーブルを扱える実装になっていて未だにテーブル結合に対応した実装が少ないのは謎。
    • 色々言いたいことはあるが、AutoMLの実装によって精度に意外な差があるのが面白い。ドメイン知識を持つ専門家がパイプラインのループに不可欠であるという指摘はその通りだと思う。

AutoVideo: ビデオからの行動認識AutoML

  • AutoVideo: An Automated Video Action Recognition System [38.4]
    AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。 7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。 AutoMLのサーチと簡単に組み合わせることができる。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 17:53:32 GMT)