マルチモーダル・マルチラベル学習を用いた違法薬物密売の検出

  • Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
    Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
    論文  参考訳(メタデータ)   (Mon, 23 Aug 2021 02:13:56 GMT)
    • マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト+画像で検知することで能力が大幅に向上したとのこと。
    • 直感的にもマルチモーダルに適した実用的な問題のように思える。

GitHub Copilotのバグ・セキュリティの分析

  • An Empirical Cybersecurity Evaluation of GitHub Copilot’s Code Contributions [8.3]
    GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。 コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。 これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
    論文  参考訳(メタデータ)   (Fri, 20 Aug 2021 17:30:33 GMT)
    • ‘AIペアプログラマ’であるGitHub Copilotが出力したコードに脆弱性がないかを分析した論文。「89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。」とのこと。学習サンプルには脆弱なコードも含まれているはずで驚きはない(が危険性があるのは確か)。Copilotのような技術は期待しているし、完璧でなくとも機械翻訳のように付き合っていくのが良いのかなと思った。