マルチモーダル – ページ 13 – arXiv最新論文の紹介

GLIPv2: Grounded Language-Image Pre-training version 2

GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 20:31:28 GMT)
- GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル – arXiv最新論文の紹介 (devneko.jp)のver2
- GLIP-Lよりも高性能化しており、Flickr30KでSoTAなど高いパフォーマンス。
- GitHub – microsoft/GLIP: Grounded Language-Image Pre-training

META LM: Language Models are General-Purpose Interfaces

Language Models are General-Purpose Interfaces [109.5]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (Mon, 13 Jun 2022 17:34:22 GMT)
- マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
  - タスクに関する記述や出力は自然言語として書け、マルチモーダルな構造とも接続できるのであれば汎用インタフェースと言える気はする。そして、semi-causal language modelingというのは刺激的なワード。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

CogVideo: テキストからのビデオ生成

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文参考訳（メタデータ） (Sun, 29 May 2022 19:02:15 GMT)
- テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
- リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

Text2Human: テキストからの人の画像生成

Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文参考訳（メタデータ） (Tue, 31 May 2022 17:57:06 GMT)
- 非常に高品質な人間の画像生成、ほとんど違和感の無い画像が生成されている。形状生成とテクスチャ生成の2段階に分かれているのも興味深い。
- リポジトリはGitHub – yumingj/Text2Human: Code for Text2Human (SIGGRAPH 2022). Paper: Text2Human: Text-Driven Controllable Human Image Generation

DisinfoMeme: 偽情報ミームのマルチモーダルデータセット

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文参考訳（メタデータ） (Wed, 25 May 2022 09:54:59 GMT)
- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。

Imagen: Googleの画像生成AI

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (Mon, 23 May 2022 17:42:53 GMT)
- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com)　（論文ではhttps://imagen.research.google/）

音声キャプショニングのサーベイ

Automated Audio Captioning: an Overview of Recent Progress and New Challenges [57.0]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文参考訳（メタデータ） (Thu, 12 May 2022 08:36:35 GMT)
- Audio Captioningのサーベイ。とても大事なタスクである一方でimage captioningやvideo captioningに比べて歴史が浅い（2017～）というのに驚いた。

日本語特化CLIP

rinna社、日本語に特化した言語画像モデルCLIPを公開｜rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。

rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。

リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Face、rinna/japanese-cloob-vit-b-16 · Hugging Face。

Gato: 汎用エージェント

A Generalist Agent [89.9]
Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
論文参考訳（メタデータ） (Thu, 12 May 2022 16:03:26 GMT)
- DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
- 「 Transformer sequence models are eﬀective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

Flamingo: DeepMindのVisual Language Models(VLM)

Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文参考訳（メタデータ） (Fri, 29 Apr 2022 16:29:01 GMT)
- DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
  - NextQA
  - iVQA
  - Flick30K
  - STAR
  - MSVDQA
  - OKVQA
  - HatefulMemes
  - VizWiz
  - VATEX
  - VQAv2
  - COCO
  - VisDial
  - TextVQA
  - MSRVTTQA
  - YouCook2
  - RareAct　※fine tuningの結果が得られていないため論文中では省略とのこと

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31