- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
MLLM(Performant Multimodal Large Language Models)を構築する。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:51:32 GMT) - AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
- apple/axlearn (github.com)を使っているとのこと。