HighMMT(High-Modality Multimodal Transformer): 多様なモダリティに対する一般化

  • HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
    マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。 得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。 コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
    論文  参考訳(メタデータ)   (Wed, 2 Mar 2022 18:56:20 GMT)

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

Multimodal Deep Learningのサーベイ

  • A Review on Methods and Applications in Multimodal Deep Learning [8.2]
    マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Feb 2022 13:50:44 GMT)
    • 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
      • ただ、MMDLという略称はあまり見ないような・・・

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

Vision-Language Pre-trainingのSurvey

  • VLP: A Survey on Vision-Language Pre-training [24.1]
    事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。 本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
    論文  参考訳(メタデータ)   (Mon, 21 Feb 2022 02:58:34 GMT)
    • image-text、video-textに対するVLP(VisionLanguage Pre-training)に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。

SpeechPainter: 音声が欠けた部分を埋めるモデル

  • SpeechPainter: Text-conditioned Speech Inpainting [12.0]
    本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。 本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
    論文  参考訳(メタデータ)   (Tue, 15 Feb 2022 09:33:30 GMT)
    • 音声(発話)データで一部が欠けたもの+補助テキストを用いて欠けた部分を埋めるモデルの提案。プロジェクトサイトのデモが面白い。
      • 面白いと同時にFakeなものに使われそうで怖い。
    • プロジェクトサイトAudio samples for “SpeechPainter: Text-conditioned Speech Inpainting”にサンプルが存在

mSLAM: multilingual Speech and LAnguage Model

医療向けビデオ理解用のデータセットMedVidQA と MedVidCL

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

  • IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
    画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:53:22 GMT)
    • 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
    • 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)

MILAN(Mutual-Information-guided Linguistic Annotation of Neurons)を用いたニューロンの可視化と編集

  • Natural Language Descriptions of Deep Visual Features [50.3]
    自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。 我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。 また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
    論文  参考訳(メタデータ)   (Wed, 26 Jan 2022 18:48:02 GMT)
    • ネットワーク上のニューロンの属性を言語化(自然言語での説明)でき、それを編集可能という論文。
      • XAIの文脈で説明を自然言語へ帰着するのはイマイチかなと思っていたが、監査や編集という面では良いのかもしれない。