MM1

  • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
    MLLM(Performant Multimodal Large Language Models)を構築する。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 17:51:32 GMT)
  • AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
  • apple/axlearn (github.com)を使っているとのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です