MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文参考訳（メタデータ） (Wed, 31 Jul 2024 17:46:51 GMT)

コメントを残すコメントをキャンセル