Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1] CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。 私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。 論文参考訳(メタデータ) (Fri, 3 Mar 2023 18:58:16 GMT)
PaLM-E: An Embodied Multimodal Language Model [101.3] 本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。 論文参考訳(メタデータ) (Mon, 6 Mar 2023 18:58:06 GMT)
大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence [34.5] 我々は,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。 私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。 オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。 論文参考訳(メタデータ) (Wed, 7 Sep 2022 07:32:37 GMT)
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6] 汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。 論文参考訳(メタデータ) (Mon, 22 Aug 2022 16:55:04 GMT)
vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
On the Opportunities and Risks of Foundation Models [260.2] ファンデーションAIモデルは、大規模なデータに基づいてトレーニングされており、幅広い下流タスクに適応できる。 本報告では,基礎モデルの可能性とリスクについて概説する。 これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。 論文参考訳(メタデータ) (Mon, 16 Aug 2021 17:50:08 GMT)