StrucTexT:マルチモーダルな構造化テキスト理解

  • StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
    Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 02:57:07 GMT)
    • 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

UniCon(Unified Context Network): アクティブな話者検出

  • UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
    我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。 私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。 異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
    論文  参考訳(メタデータ)   (Thu, 5 Aug 2021 13:25:44 GMT)

MultiBench: マルチモーダルなベンチマーク

  • MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
    MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。 データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。 大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
    論文  参考訳(メタデータ)   (Thu, 15 Jul 2021 17:54:36 GMT)
  • マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
    • Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
    • Healthcare: MIMIC
    • Robotics: MuJoCo Push, Vision & Touch
    • Finance: Stocks-food, Stocks-health, Stocks-tech
    • HCI: ENRICO
    • Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
  • 評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
  • https://cmu-multicomp-lab.github.io/multibench/https://github.com/pliang279/MultiBench が公式サイト&リポジトリ

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

  • MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
    本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。 提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
    論文  参考訳(メタデータ)   (Wed, 14 Jul 2021 15:37:02 GMT)
    • 音響+テキスト+画像というマルチモーダルなデータを扱って(+GCNで)感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・?

VidLanKD(Video-Language Knowledge Distillation method):動画-テキストデータを用いた事前学習

  • VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.4]
    言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。 
    論文  参考訳(メタデータ)   (Tue, 6 Jul 2021 15:41:32 GMT)
    • ビデオテキストデータセットでまずマルチモーダルモデルを構築、蒸留の枠組みで言語モデル構築に利用する研究。SQuAD等のデータセットで効果を確認したとのこと。画像とテキストの融合が、テキストオンリーのタスクにも有効というのが興味深い。

CLIP-It!: 言葉でのクエリを用いたビデオ要約

  • CLIP-It! Language-Guided Video Summarization [96.7]
    この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。 本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。 本モデルは教師なしの設定に拡張することができる。 標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。 本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 1 Jul 2021 17:59:27 GMT)
    • ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。

Visual Parsing with Self-Attention for Vision-Language Pre-training

  • Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
    Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
    論文  参考訳(メタデータ)   (Mon, 28 Jun 2021 04:42:48 GMT)
    • マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERSOHOを上回る性能を出したとのこと。

言語モデルを利用したマルチモーダルなFew Shotモデル

  • Multimodal Few-Shot Learning with Frozen Language Models [36.8]
    十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。 本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。 得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 21:07:09 GMT)
    • 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
    • ほんとか?という感じで面白い結果。

GEM(General Evaluation benchmark for Multimodal tasks):マルチモーダルなベンチマーク

  • GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
    マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 03:14:13 GMT)
    • 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
    • データ等は https://github.com/microsoft/GEM から参照可能。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。