マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)

M-SENA: マルチモーダルな感情分析プラットフォーム

  • M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
    M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。 データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 14:28:08 GMT)

WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

  • WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
    我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。 画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Mar 2022 06:12:20 GMT)
    • テキスト・画像の大規模データセット。研究目的にのみ利用可能。
    • プロジェクトサイトはresource (wudaoai.cn)

Make-A-Scene: 制御可能なテキストtoイメージ生成

  • Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
    近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
    論文  参考訳(メタデータ)   (Thu, 24 Mar 2022 15:44:50 GMT)
    • テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。

句レベルの画像表現を用いたニューラル機械翻訳

  • Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
    既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。 提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。 実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
    論文  参考訳(メタデータ)   (Sat, 19 Mar 2022 11:21:13 GMT)

ProbES(Prompt-based Environmental Selfexploration): VLNを対象としたデータ合成

  • Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [84.0]
    本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。 我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
    論文  参考訳(メタデータ)   (Tue, 8 Mar 2022 11:01:24 GMT)
  • 最近よく見かける事前学習モデルからデータを作るという方針をVLNに適用した報告。画像と自然言語の紐づけにはCLIPを使用とのこと。
  • リポジトリはGitHub – liangcici/Probes-VLN

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Audio Self-supervised Learningのサーベイ

  • Audio Self-supervised Learning: A Survey [60.4]
    SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。 コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
    論文  参考訳(メタデータ)   (Wed, 2 Mar 2022 15:58:29 GMT)
    • 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声+Visionのようなマルチモーダルな手法もサーベイ対象となっている。

Vision-Language Intelligenceのサーベイ

  • Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
    本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 18:54:59 GMT)
    • Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。