Gato: 汎用エージェント

  • A Generalist Agent [89.9]
    Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 16:03:26 GMT)
    • DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
    • 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

Flamingo: DeepMindのVisual Language Models(VLM)

  • Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
    この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。 柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。 一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
    論文  参考訳(メタデータ)   (Fri, 29 Apr 2022 16:29:01 GMT)
    • DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
      • NextQA
      • iVQA
      • Flick30K
      • STAR
      • MSVDQA
      • OKVQA
      • HatefulMemes
      • VizWiz
      • VATEX
      • VQAv2
      • COCO
      • VisDial
      • TextVQA
      • MSRVTTQA
      • YouCook2
      • RareAct ※fine tuningの結果が得られていないため論文中では省略とのこと

LayoutLMv3

  • LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
    テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
    論文  参考訳(メタデータ)   (Mon, 18 Apr 2022 16:19:52 GMT)
    • マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
    • リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

  • WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
    MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 12:52:40 GMT)
    • 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。 
    • リポジトリはGitHub – wangxw5/wikiDiverse

Socratic Model: モデル間の対話を通したマルチモーダル

  • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
    大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
    論文  参考訳(メタデータ)   (Fri, 1 Apr 2022 17:43:13 GMT)
    • 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
    • リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
    • オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
    • テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
    • 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
  • 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
  • サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Automatic Song Translation: 歌詞の自動翻訳

  • Automatic Song Translation for Tonal Languages [23.1]
    歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 02:25:33 GMT)
    • 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築(翻訳モデル構築では外部データを活用)を行っている。下記サイトのデモが面白い(が中国語が分からないので、翻訳の有効性が確認できず残念)。
    • リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)

マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)

M-SENA: マルチモーダルな感情分析プラットフォーム

  • M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
    M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。 データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 14:28:08 GMT)