公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。
上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.5]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。 特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。 オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 17:59:25 GMT) - リポジトリはGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型、モデルはOpenGVLab/InternVL3-78B · Hugging Face
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.2]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。 モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:59:56 GMT) - リポジトリはGitHub – facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!、データセットも公開されているPLM Data | Meta AI Research
- BitNet b1.58 2B4T Technical Report [118.8]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (Wed, 16 Apr 2025 17:51:43 GMT) - リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
- デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)