Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

  • Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
    本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 18:57:56 GMT)
  • 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。

Toolformer

  • Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
    言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 16:49:57 GMT)
  • どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
  • GPT-Jをベースに実験がされていて、より大きなモデル(GPT-3)よりも優れた性能を発揮。
  • 昔はやったマッシュアップを思い出して非常に興味深い。

Neural Knowledge Bank (NKB) :事前学習モデルにおける知識蓄積機構

  • Neural Knowledge Bank for Pretrained Transformers [20.4]
    本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。 知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
    論文  参考訳(メタデータ)   (Sun, 31 Jul 2022 09:14:34 GMT)
    • Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

DocCoder: ドキュメントを利用したコード生成

AFK(Asking for Knowledge): 質問をする強化学習

  • Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language [121.6]
    グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。 本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 14:20:31 GMT)
    • 外部知識にクエリーが可能な強化学習エージェントの提案。実行環境を作ったうえで有効性を確認している。
      • エージェントと環境を仲介するのが自然言語であるのが興味深い。
    • プロジェクトサイトはAFK (ioujenliu.github.io)