音声キャプショニングのサーベイ

  • Automated Audio Captioning: an Overview of Recent Progress and New Challenges [57.0]
    自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。 本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 08:36:35 GMT)
    • Audio Captioningのサーベイ。とても大事なタスクである一方でimage captioningやvideo captioningに比べて歴史が浅い(2017~)というのに驚いた。

日本語特化CLIP

rinna社、日本語に特化した言語画像モデルCLIPを公開|rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。

rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。

リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Facerinna/japanese-cloob-vit-b-16 · Hugging Face

Gato: 汎用エージェント

  • A Generalist Agent [89.9]
    Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 16:03:26 GMT)
    • DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
    • 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

Flamingo: DeepMindのVisual Language Models(VLM)

  • Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
    この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。 柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。 一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
    論文  参考訳(メタデータ)   (Fri, 29 Apr 2022 16:29:01 GMT)
    • DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
      • NextQA
      • iVQA
      • Flick30K
      • STAR
      • MSVDQA
      • OKVQA
      • HatefulMemes
      • VizWiz
      • VATEX
      • VQAv2
      • COCO
      • VisDial
      • TextVQA
      • MSRVTTQA
      • YouCook2
      • RareAct ※fine tuningの結果が得られていないため論文中では省略とのこと

LayoutLMv3

  • LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
    テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
    論文  参考訳(メタデータ)   (Mon, 18 Apr 2022 16:19:52 GMT)
    • マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
    • リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

  • WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
    MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 12:52:40 GMT)
    • 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。 
    • リポジトリはGitHub – wangxw5/wikiDiverse

Socratic Model: モデル間の対話を通したマルチモーダル

  • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
    大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
    論文  参考訳(メタデータ)   (Fri, 1 Apr 2022 17:43:13 GMT)
    • 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
    • リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
    • オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
    • テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
    • 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
  • 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
  • サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Automatic Song Translation: 歌詞の自動翻訳

  • Automatic Song Translation for Tonal Languages [23.1]
    歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 02:25:33 GMT)
    • 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築(翻訳モデル構築では外部データを活用)を行っている。下記サイトのデモが面白い(が中国語が分からないので、翻訳の有効性が確認できず残念)。
    • リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)

マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。