- Language Models are General-Purpose Interfaces [109.5]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。 事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (Mon, 13 Jun 2022 17:34:22 GMT)- マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
- タスクに関する記述や出力は自然言語として書け、マルチモーダルな構造とも接続できるのであれば汎用インタフェースと言える気はする。そして、semi-causal language modelingというのは刺激的なワード。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities
- マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
タグ: マルチモーダル
CogVideo: テキストからのビデオ生成
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (Sun, 29 May 2022 19:02:15 GMT)- テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
- リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.
Text2Human: テキストからの人の画像生成
- Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。 テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文 参考訳(メタデータ) (Tue, 31 May 2022 17:57:06 GMT)- 非常に高品質な人間の画像生成、ほとんど違和感の無い画像が生成されている。形状生成とテクスチャ生成の2段階に分かれているのも興味深い。
- リポジトリはGitHub – yumingj/Text2Human: Code for Text2Human (SIGGRAPH 2022). Paper: Text2Human: Text-Driven Controllable Human Image Generation
DisinfoMeme: 偽情報ミームのマルチモーダルデータセット
- DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。 このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文 参考訳(メタデータ) (Wed, 25 May 2022 09:54:59 GMT)- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。
Imagen: Googleの画像生成AI
- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (Mon, 23 May 2022 17:42:53 GMT)- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com) (論文ではhttps://imagen.research.google/)
音声キャプショニングのサーベイ
- Automated Audio Captioning: an Overview of Recent Progress and New Challenges [57.0]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。 本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (Thu, 12 May 2022 08:36:35 GMT)- Audio Captioningのサーベイ。とても大事なタスクである一方でimage captioningやvideo captioningに比べて歴史が浅い(2017~)というのに驚いた。
日本語特化CLIP
rinna社、日本語に特化した言語画像モデルCLIPを公開|rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。
rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。
リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Face、rinna/japanese-cloob-vit-b-16 · Hugging Face。
Gato: 汎用エージェント
- A Generalist Agent [89.9]
Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
論文 参考訳(メタデータ) (Thu, 12 May 2022 16:03:26 GMT)- DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
- 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。
Flamingo: DeepMindのVisual Language Models(VLM)
- Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。 柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。 一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文 参考訳(メタデータ) (Fri, 29 Apr 2022 16:29:01 GMT)- DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
- NextQA
- iVQA
- Flick30K
- STAR
- MSVDQA
- OKVQA
- HatefulMemes
- VizWiz
- VATEX
- VQAv2
- COCO
- VisDial
- TextVQA
- MSRVTTQA
- YouCook2
- RareAct ※fine tuningの結果が得られていないため論文中では省略とのこと
- DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
LayoutLMv3
- LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (Mon, 18 Apr 2022 16:19:52 GMT)- マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
- リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub