マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

  • A Survey on Multimodal Large Language Models [56.8]
    マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 15:21:52 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
  • リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。
  • Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
    このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。 視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。 前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。 最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:31 GMT)
  • CVPRのマルチモーダルモデルのチュートリアル
  • スライド:https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

ERNIE 3.5と XGen

Baiduから中国語の能力ではGPT-4を超えるというERNIE 3.5が発表された(Baidu Research)、ベンチマーク結果は独家:百度文心大模型3.5已内测应用,实测得分超ChatGPT (qq.com)で英語でもChatGPT(GPT-3.5)と競合する性能、中国語ではGPT-4を超える性能とのこと。

SaleseforceはXGenというオープンなLLMを発表(Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length (salesforceairesearch.com))コンテキストが長く、オープンなLLMの中では優れた性能のよう。日本語に対応していそうな点も魅力的。リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、モデルはSalesforce/xgen-7b-8k-base · Hugging Face

LLMの開発競争は続いている。モデルをオープンにする企業が多いのは非常にありがたい。

SearChain: Search-in-the-Chainのリポジトリ