MM1 – arXiv最新論文の紹介

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
MLLM(Performant Multimodal Large Language Models)を構築する。特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 17:51:32 GMT)
AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
apple/axlearn (github.com)を使っているとのこと。

コメントを残す

コメントを残す コメントをキャンセル