Foundational Models Defining a New Era in Vision: A Survey and Outlook

  • Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.5]
    視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
    論文  参考訳(メタデータ)   (Tue, 25 Jul 2023 17:59:18 GMT)
  • コンピュータビジョン(+LLM)のfoundational modelsのサーベイ。プロンプトを使うスタイルのモデルが主。EMBODIED FOUNDATIONAL AGENTSも扱われており、とても参考になる。
  • リソースがGitHub – awaisrauf/Awesome-CV-Foundational-Modelsにある。とても有用。

Toolを使うFoundation Model、Tool-AugmentedなLLM

  • Tool Learning with Foundation Models [114.3]
    基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
    論文  参考訳(メタデータ)   (Mon, 17 Apr 2023 15:16:10 GMT)
  • ツールを使用する基盤モデルに関するサーベイ
  • 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
  • リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

  • API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
    本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 14:05:32 GMT)
  • LLMのためのAPI利用ベンチマーク
  • データやコードは公開されているのだろうか?論文中にはリンクがなさそう。

CaFo: Cascade of Foundation models

  • Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
    CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 18:58:16 GMT)
  • Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
  • プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

PaLM-E

  • PaLM-E: An Embodied Multimodal Language Model [101.3]
    本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
    論文  参考訳(メタデータ)   (Mon, 6 Mar 2023 18:58:06 GMT)
  • 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
  • プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model

Foundation Transformers

  • Foundation Transformers [105.1]
    我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。 本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 17:16:27 GMT)
    • MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
    • プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

FETA(Foundation Model for Expert Task Applications)ベンチマークとデータセット

  • FETA: Towards Specializing Foundation Models for Expert Task Applications [49.6]
    ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。 この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。 本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Sep 2022 08:47:57 GMT)
    • Text-to-Image (T21) と Image-to-Text (I2T) の検索を対象に、専門家のタスクとして多様な自動車サービスマニュアルと販売(IKEA年次カタログ)にフォーカスしたベンチマークの提案。CLIPやFLAVAなどの既存モデルでは難しい問題になっているとのこと。
    • 論文中にデータのダウンロードリンクがある。

Fengshenbang : 中国のFoundationモデル構築プロジェクト

  • Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence [34.5]
    我々は,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。 私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。 オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 07:32:37 GMT)

BEiT-3

  • Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
    汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Aug 2022 16:55:04 GMT)
    • vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
    • 画像を外国語(言語)として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
    • プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

Socratic Model: モデル間の対話を通したマルチモーダル

  • Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
    大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。 このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
    論文  参考訳(メタデータ)   (Fri, 1 Apr 2022 17:43:13 GMT)
    • 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
    • リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

Foundation Models: 基礎となるモデルの可能性とリスク

  • On the Opportunities and Risks of Foundation Models [260.2]
    ファンデーションAIモデルは、大規模なデータに基づいてトレーニングされており、幅広い下流タスクに適応できる。 本報告では,基礎モデルの可能性とリスクについて概説する。 これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 17:50:08 GMT)
    • StanfordのCenter for Research on Foundation Models (CRFM)による基礎モデル(≒大規模事前学習モデル)の可能性とリスクに関する論文。近年の大規模事前学習の状況と未来における課題について広範にまとまっている。114人の著者による211ページの論文であり書籍といっても良い規模。
    • https://www.arxiv-vanity.com/で変換済みのようなので、ここからブラウザの翻訳等使うと読みやすいかもしれない。