マルチモーダル – ページ 15 – arXiv最新論文の紹介

句レベルの画像表現を用いたニューラル機械翻訳

Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (Sat, 19 Mar 2022 11:21:13 GMT)
- 文-画像のペアを用いた機械翻訳ではなくフレーズレベルでテキストと画像を紐づけることでデータの少なさとスパースさを改善したニューラル機械翻訳の提案。Multi30kなどで優れた性能を達成とのこと。
- リポジトリはGitHub – ictnlp/PLUVR: Code for ACL 2022 main conference paper “Neural Machine Translation with Phrase-Level Universal Visual Representations”.

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (Tue, 8 Mar 2022 11:01:24 GMT)
最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
リポジトリはGitHub – liangcici/Probes-VLN

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 21:09:13 GMT)
- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

Audio Self-supervised Learningのサーベイ

Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 15:58:29 GMT)
- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声＋Visionのようなマルチモーダルな手法もサーベイ対象となっている。

Vision-Language Intelligenceのサーベイ

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 18:54:59 GMT)
- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。

HighMMT(High-Modality Multimodal Transformer): 多様なモダリティに対する一般化

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 18:56:20 GMT)
- 10という多くのモダリティを統一的に（パラメータを共有しながら）扱える手法の提案。
  - 入力は一律で小パッチ（の分散表現）のシーケンスとして扱うとのことでこの方針は汎用的っぽい。
  - 2, 3以上のモダリティが統一的に扱えていくと非常に汎用的なモデルとして使えそうで面白い
- リポジトリはGitHub – pliang279/HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文参考訳（メタデータ） (Mon, 28 Feb 2022 09:40:46 GMT)
- マルチモーダル（画像＋テキスト）な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
- リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

Multimodal Deep Learningのサーベイ

A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 18 Feb 2022 13:50:44 GMT)
- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
  - ただ、MMDLという略称はあまり見ないような・・・

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文参考訳（メタデータ） (Thu, 24 Feb 2022 00:55:52 GMT)
- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
  - Adobe Researchの論文で今後このようなインタフェースに期待大。
- リポジトリはGitHub – hyounghk/CAISE: Code and dataset for AAAI 2022 paper “CAISE: Conversational Agent for Image Search and Editing” Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, and Mohit Bansal

Vision-Language Pre-trainingのSurvey

VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文参考訳（メタデータ） (Mon, 21 Feb 2022 02:58:34 GMT)
- image-text、video-textに対するVLP（VisionLanguage Pre-training）に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31