マルチモーダル – ページ 18 – arXiv最新論文の紹介

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (Wed, 10 Nov 2021 16:04:49 GMT)
- VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

CLEVER(Curious Layperson-to-Expert Visual Entity Recognition): エキスパートのアノテーションを使わない画像認識

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 5 Nov 2021 17:58:37 GMT)
- 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。
- リポジトリはhttps://github.com/subhc/clever

マルチモーダル性を活用した電子健康記録データの分析

How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.4]
電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。 2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (Fri, 29 Oct 2021 13:26:05 GMT)
- EHR （Electronic Health Record）のデータ分析において時間に影響されないデータ、時系列性のあるデータ（離散/連続）、臨床ノートの情報という複数種類のデータを統合した結果性能向上に有効だったとの報告。
- リポジトリはhttps://github.com/emnlp-mimic/mimic

音声/画像によるAnomaly Event Detection

Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.7]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 28 Oct 2021 02:42:48 GMT)
- 音声＋画像による異常検知。直感的にも効果がありそう。複数の情報ソースを束ね高性能を目指すアプローチは今後も有望だと思う。

WenLan 2.0: マルチモーダルな巨大事前学習モデル

WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 27 Oct 2021 12:25:21 GMT)
- 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
- 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these ﬁndings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか？
  - 個人的には可能性を感じていて興味津々

FooDI-ML: マルチリンガルな食品画像＋説明のデータセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 13:33:08 GMT)
- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション

Why Do We Click: Visual Impression-aware News Recommendation [108.7]
この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 26 Sep 2021 16:58:14 GMT)
- 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
- https://github.com/JiahaoXun/IMRec　がリポジトリとのこと。

CrossCLR: クロスモーダルなContrastive Learning

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 30 Sep 2021 08:12:21 GMT)
- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。

VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文参考訳（メタデータ） (Tue, 28 Sep 2021 23:01:51 GMT)
- 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA（に近い性能）、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
- リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文参考訳（メタデータ）参考訳（全文） (Tue, 28 Sep 2021 15:15:57 GMT)
- OpenViDialの5倍以上、5.6M対話と大きな画像付き対話データセット。データソースは映画やTVとのこと。
- リポジトリはhttps://github.com/ShannonAI/OpenViDial

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31