マルチモーダル・マルチラベル学習を用いた違法薬物密売の検出

  • Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
    Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
    論文  参考訳(メタデータ)   (Mon, 23 Aug 2021 02:13:56 GMT)
    • マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト+画像で検知することで能力が大幅に向上したとのこと。
    • 直感的にもマルチモーダルに適した実用的な問題のように思える。

CSRA(Class-Specific Residual Attention): マルチラベル画像認識モデルへのシンプルかつ強力なモジュール

  • Residual Attention: A Simple but Effective Method for Multi-Label Recognition [29.2]
    クラス固有残差注意(CSRA)という,恥ずかしいほど単純なモジュールを提案する。 CSRAは、単純な空間的注意スコアを提案し、クラスに依存しない平均プール機能と組み合わせることで、各カテゴリのクラス固有の特徴を生成する。 4行のコードだけで、CSRAは追加のトレーニングなしで、さまざまな事前訓練されたモデルやデータセットに対して一貫した改善をもたらす。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 08:45:57 GMT)
    • an embarrassingly simple module(恥ずかしいほどシンプルなモジュール)と書かれているように下記のとてもシンプルなモジュールを入れるだけでマルチラベル画像認識モデルの性能が向上するとした論文。予測時に入れるだけでトレーニングも不要と驚きの性能。動作に関する分析も行っている。
      • モジュールのコード(論文より引用)
        y_raw = FC(x).flatten(2)
        y_avg = torch.mean(y_raw, dim=2)
        y_max = torch.max(y_raw, dim=2)[0]
        score = y_avg + Lambda * y_max
      • Lambdaはハイパーパラメータ