機械学習を用いたシステムのcode smell

  • Code Smells in Machine Learning Systems [27.8]
    本研究は,ディープラーニングソフトウェアシステムにおけるコードの臭いに関する最初の研究である。 DLシステムにおいて,保守関連変更の9つの頻度で検出された。 新たに同定されたコードの臭いが、開発者の視点でDLシステムのメンテナンスに広く影響していることがわかりました。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Mar 2022 00:39:00 GMT)
    • 機械学習、特にDeep Learningを用いたソフトウェアに対するcode smell(ヤバそうなコード)の分析。
      • 「Scattered Use of ML Library: サードパーティーのライブラリやフレームワークを非凝縮的に使用、当該ライブラリが更新されたときに変更が多発」など身につまされる内容・・・

機械学習を用いたアンチマネーロンダリングのサーベイ

  • Fighting Money Laundering with Statistics and Machine Learning: An Introduction and Review [95.4]
    マネーロンダリングは深刻なグローバルな問題です。 このトピックに関する統計学と機械学習の研究はほとんどない。 大きな課題の1つは、公開データセットの欠如である。
    論文  参考訳(メタデータ)   (Thu, 13 Jan 2022 13:54:31 GMT)
    • AI利用のアンチマネーロンダリングのサーベイ。想像がつくことではあるが公開されているデータがほぼないことが大きな課題。これに加えて不均衡データであることも課題として挙げられている。
    • 様々な取り組みを振り返るには良い内容。

AI/機械学習の実用に関する調査

  • Machine Learning Application Development: Practitioners’ Insights [18.1]
    MLアプリケーション開発の課題とベストプラクティスを理解することを目的とした調査について報告する。 80人の実践者から得られた結果を17の発見にまとめ、MLアプリケーション開発の課題とベストプラクティスを概説する。 報告された課題が、MLベースのアプリケーションのエンジニアリングプロセスと品質を改善するために調査すべきトピックについて、研究コミュニティに知らせてくれることを期待しています。
    論文  参考訳(メタデータ)   (Fri, 31 Dec 2021 03:38:37 GMT)
    • AI/機械学習の実用を行っている人へのアンケート結果の報告。周りの人がどのようなことをやっているのかを知るために参考になる。
    • Findingsも(全部同意というわけではないが)納得のいく内容が多い。Finding 12の「roughly one-third of the practitioners write code from scratch for model implementation」はやや驚き。どこからがscratchなんだろう?「Practitioners also mentioned using their own custom auto-ML system for ML model training.」も納得感があって、私もGitHub – s-taka/fugumlを作っている。報告ではクラスバランスが重視されている印象があるが、個人的には不均衡データの取り扱いはドメインに強く依存するなーと思う。

機械学習における安全性の未解決問題

  • Unsolved Problems in ML Safety [45.8]
    研究の準備ができている4つの問題、すなわち、ハザードを克服し、ハザードを特定し、MLシステムを操り、MLシステムの扱い方に対するリスクを低減する。 それぞれの問題のモチベーションを明確にし、具体的な研究指針を提供する。
    論文  参考訳(メタデータ)   (Tue, 28 Sep 2021 17:59:36 GMT)
    • 機械学習利用時の問題を「Robustness: 敵対攻撃、異常な状況、レアなイベントに対する頑健性」「Monitoring: 悪意のある利用の検知、予測の監視、予期せぬ動きの検出」「Alignment:正しい (人間的な)目的の設定と安全な最適化」「External safety: サイバー攻撃への対策などMLシステム利用時のリスク低減」に分けて整理した論文。Appendix部分を含めてとても良い。

機械学習における再現性の確保ガイド

  • A Guide to Reproducible Research in Signal Processing and Machine Learning [9.7]
    2016年にNature誌が行った調査によると、研究者の50%が自身の実験を再現できなかった。 我々は,再現可能な計算実験を生成する上での障害の多くを軽減するための,実用的なツールと戦略のセットを,信号処理研究者に提供することを目的とする。
    論文  参考訳(メタデータ)   (Fri, 27 Aug 2021 16:42:32 GMT)
    • 再現性を確保するためのガイド。データとコードだけあれば再現できる、、、わけではなく正しいやり方で正しいツールを使うことを推奨している。書かれているのは「最低限やるべきこと」というイメージでもっと流行りのアプローチもあるような気がするが、重要な指摘であることには違いない。