マルチモーダル – ページ 20 – arXiv最新論文の紹介

Multimodal Hierarchical Selective Transformer (mhsf) : マルチモーダルな抽象型要約

Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference [3.5]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。提案したmhsfモデルの汎用性を,事前学習+微調整およびフレッシュトレーニング戦略を用いて評価した。
論文参考訳（メタデータ） (Wed, 11 Aug 2021 09:59:34 GMT)
- テキスト、画像、音声→テキストな抽象型要約に関する論文。マルチモーダル性をうまく利用することで既存手法より優れていると報告。人間による評価を併用している点、そこでも高スコアであることが興味深い。

CIRR( Composed Image Retrieval on Real-life images)データセットとCIRPLANT(Composed Image Retrieval using Pretrained LANguage Transformers )モデル

Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models [41.7]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。 CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (Mon, 9 Aug 2021 13:25:06 GMT)
テキストによるフィードバックを条件とする画像検索を前提にデータセットとモデルを提案している。論文またはプロジェクトサイトの具体例を見るのが分かりやすいが、「1匹の犬の画像」と「同じ犬種の2匹が床にいる」というテキストを与えて「同じ犬種の2匹の犬が床にいる」画像を探すというタスク。マルチモーダルの取り扱いが必要で実用的なタスクのように感じる。
プロジェクトサイトはhttps://cuberick-orion.github.io/CIRR/

StrucTexT:マルチモーダルな構造化テキスト理解

StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 02:57:07 GMT)
- 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

UniCon(Unified Context Network): アクティブな話者検出

UniCon: Unified Context Network for Robust Active Speaker Detection [111.9]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文参考訳（メタデータ） (Thu, 5 Aug 2021 13:25:44 GMT)
- ビデオからの話者推定タスクAVA Challenge / Active Speaker (https://research.google.com/ava/challenge.html)でトップを取ったチームが出した論文。4ページの図を見ても高度なモデルの組み合わせで実現していることが分かる。
- プロジェクトサイトはhttps://unicon-asd.github.io/

MultiBench: マルチモーダルなベンチマーク

MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.2]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文参考訳（メタデータ） (Thu, 15 Jul 2021 17:54:36 GMT)
マルチモーダルなベンチマーク。扱われている領域とデータセットは下記の通り。データの概要はhttps://cmu-multicomp-lab.github.io/multibench/datasets/に詳しい。
- Affective computing: MUStARD, CMU-MOSI, UR-FUNNY, CMU-MOSEI
- Healthcare: MIMIC
- Robotics: MuJoCo Push, Vision & Touch
- Finance: Stocks-food, Stocks-health, Stocks-tech
- HCI: ENRICO
- Multimedia: AV-MNIST, MM-IMDb, Kinetics400-S, Kinetics400-L
評価はPerformance、Complexity、Robustnessで行われるとのこと。Learderboardがどうなるか楽しみ。
https://cmu-multicomp-lab.github.io/multibench/ と https://github.com/pliang279/MultiBench が公式サイト＆リポジトリ

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
論文参考訳（メタデータ） (Wed, 14 Jul 2021 15:37:02 GMT)
- 音響＋テキスト＋画像というマルチモーダルなデータを扱って（＋GCNで）感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・？

VidLanKD（Video-Language Knowledge Distillation method）:動画-テキストデータを用いた事前学習

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.4]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (Tue, 6 Jul 2021 15:41:32 GMT)
- ビデオテキストデータセットでまずマルチモーダルモデルを構築、蒸留の枠組みで言語モデル構築に利用する研究。SQuAD等のデータセットで効果を確認したとのこと。画像とテキストの融合が、テキストオンリーのタスクにも有効というのが興味深い。

CLIP-It!: 言葉でのクエリを用いたビデオ要約

CLIP-It! Language-Guided Video Summarization [96.7]
この作業では、一般的性とクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは教師なしの設定に拡張することができる。標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。本手法は強い一般化能力を示すため,転送設定の大幅な改善を実現した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 1 Jul 2021 17:59:27 GMT)
- ビデオの各フレームをキャプショニング、スコアリングしてフレームからキーショットを選択。エンコーディングにCLIPを利用すると優れた性能が出せるとのこと。
- コード等はhttps://medhini.github.io/clip_it/で（後日）確認可能。

Visual Parsing with Self-Attention for Vision-Language Pre-training

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
論文参考訳（メタデータ） (Mon, 28 Jun 2021 04:42:48 GMT)
- マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERやSOHOを上回る性能を出したとのこと。

言語モデルを利用したマルチモーダルなFew Shotモデル

Multimodal Few-Shot Learning with Frozen Language Models [36.8]
十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 21:07:09 GMT)
- 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
- ほんとか？という感じで面白い結果。

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31