マルチモーダル – ページ 16 – arXiv最新論文の紹介

ｍSLAM: multilingual Speech and LAnguage Model

mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 02:26:40 GMT)
- w2v-BERT＋SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

A Dataset for Medical Instructional Video Classification and Question Answering [16.7]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 30 Jan 2022 18:06:31 GMT)
- ビデオに対するQuestion Answeringと分類用データセット。医療ドメインのものは珍しいと思う。
- リポジトリはGitHub – deepaknlp/MedVidQACL: Implementation of the Benchmark Approaches for Medical Instructional Video Classification (MedVidCL) and Medical Video Question Answering (MedVidQA)

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:53:22 GMT)
- 画像＋言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念（翻訳モデル開発者としてはうれしいが、未来感がない）
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)

MILAN(Mutual-Information-guided Linguistic Annotation of Neurons)を用いたニューロンの可視化と編集

Natural Language Descriptions of Deep Visual Features [50.3]
自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文参考訳（メタデータ） (Wed, 26 Jan 2022 18:48:02 GMT)
- ネットワーク上のニューロンの属性を言語化（自然言語での説明）でき、それを編集可能という論文。
  - XAIの文脈で説明を自然言語へ帰着するのはイマイチかなと思っていたが、監査や編集という面では良いのかもしれない。

Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Fri, 14 Jan 2022 04:12:46 GMT)
- Outside-Knowledge Visual Question Answeringは回答には不十分な（外部知識活用を必要とする）画像＋質問に回答するタスク。「消火栓の写真＋これを使う車の名前は？」に対して「消防車」と答えるような内容。
- Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

Data2vec: speech、vision、textで動作する自己教師有り学習

2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。

論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub

LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

RLD Dataset: 会話応答（表情）のビデオデータセット

Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (Mon, 27 Dec 2021 07:18:50 GMT)
- 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く（難しいと思われる）タスク。
- プロジェクトサイトはRLD Dataset (mhzhou.com)

MISE(Multimodal Image Synthesis and Editing)のサーベイ

Multimodal Image Synthesis and Editing: A Survey [41.6]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 27 Dec 2021 10:00:16 GMT)
- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。
  - サーベイ対象に12月発表のFugu-MT 論文翻訳(概要): CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields (fugumt.com)が入っているが、どのタイミングで編集したんだろう。。。
- プロジェクトサイトはGitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey [Preprint]

MuMuQA(Multimedia Multi-Hop news Question Answering)

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ）参考訳（全文） (Mon, 20 Dec 2021 18:23:30 GMT)
- クロスメディア（画像、キャプション、ニュース本文）、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用（Silver Training Set）のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31