PMT(Product-oriented Machine Translation): 製品指向の機械翻訳

  • Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training [47.2]
    製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。 ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。 本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。 製品指向のクロスモーダル言語モデル(upoc2)を事前学習と微調整のために設計する。
    論文  参考訳(メタデータ)   (Wed, 25 Aug 2021 08:36:01 GMT)
    • 製品説明のような状況では画像を用いてクロスモーダルな機械翻訳を行うことが重要とした論文。Unified Product-Oriented Cross-modal Cross-lingual model (UPOC2) を提案。
    • マルチモーダル性を利用した翻訳が広まっていくと面白いと思う。個人的には顔画像の感情分析を併用したようなモデルを作ってみたいと思ったり思わなかったり。
    • リポジトリはhttps://github.com/syuqings/Fashion-MMT

マルチモーダル・マルチラベル学習を用いた違法薬物密売の検出

  • Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach [18.2]
    Instagram上では、違法薬物密売事件(IDTE)の詳細な検出に関する最初の系統的研究を行っている。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。
    論文  参考訳(メタデータ)   (Mon, 23 Aug 2021 02:13:56 GMT)
    • マルチモーダルなモデルを用いた違法薬物の検出。単一情報のみの場合は画像よりもテキストによる検出が優れていたが、画像情報を加えテキスト+画像で検知することで能力が大幅に向上したとのこと。
    • 直感的にもマルチモーダルに適した実用的な問題のように思える。

MMChat: Multi-Modal Chat Dataset

  • MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
    MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 15:27:49 GMT)
    • マルチモーダルな対話データセット。120K対話、200K画像と大規模。
    • 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。

Multimodal Hierarchical Selective Transformer (mhsf) : マルチモーダルな抽象型要約

  • Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.5]
    モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。 提案したmhsfモデルの汎用性を,事前学習+微調整およびフレッシュトレーニング戦略を用いて評価した。
    論文  参考訳(メタデータ)   (Wed, 11 Aug 2021 09:59:34 GMT)
    • テキスト、画像、音声→テキストな抽象型要約に関する論文。マルチモーダル性をうまく利用することで既存手法より優れていると報告。人間による評価を併用している点、そこでも高スコアであることが興味深い。

CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

  • Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
    合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。 比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Aug 2021 13:25:06 GMT)
  • テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
  • プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

StrucTexT:マルチモーダルな構造化テキスト理解

  • StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
    Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 02:57:07 GMT)
    • 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

UniCon(Unified Context Network): アクティブな話者検出

  • UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
    我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。 私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。 異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 13:25:44 GMT)

MultiBench: マルチモーダルなベンチマーク

  • MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
    MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 17:54:36 GMT)
  • マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
    • Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
    • Healthcare: MIMIC
    • Robotics: MuJoCo Push, Vision & Touch
    • Finance: Stocks-food, Stocks-health, Stocks-tech
    • HCI: ENRICO
    • Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
  • 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
  • https://cmu-multicomp-lab.github.io/multibench/https://github.com/pliang279/MultiBench が公式サイト&リポジトリ

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

  • MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
    本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。 提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 15:37:02 GMT)
    • 音響+テキスト+画像というマルチモーダルなデータを扱って(+GCNで)感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・?

VidLanKD(Video-Language Knowledge Distillation method):動画-テキストデータを用いた事前学習

  • VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.4]
    言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。 
    論文  参考訳(メタデータ)   (Tue, 6 Jul 2021 15:41:32 GMT)
    • ビデオテキストデータセットでまずマルチモーダルモデルを構築、蒸留の枠組みで言語モデル構築に利用する研究。SQuAD等のデータセットで効果を確認したとのこと。画像とテキストの融合が、テキストオンリーのタスクにも有効というのが興味深い。