Phi4, InternVL 2.5, EXAONE 3.5

Gemini 2.0やOpenAIの12日間発表で盛り上がっているが、OSSや公開モデルについても様々なモデルが発表されている。

  • Phi-4 Technical Report [72.1]
    本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。 多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 03:37:41 GMT)
  • 小型、高性能モデルPhiの最新バージョン、「phi-4 strategically incorporates synthetic data throughout the training process.」とのことで合成データをうまく活用するアプローチ。Phi3を超え、GPT-4o miniに迫っている優秀なモデル。
  • 公式Blogでも発表がある Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Community Hub
  • EXAONE 3.5: Series of Large Language Models for Real-world Use Cases [35.0]
    EXAONE 3.5言語モデルは32B、7.8B、2.4Bの3つの構成で提供されている。 商用利用については、LG AI Researchの公式コンタクトポイントを参照してください。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 09:31:10 GMT)
  • LGによる公開モデル、同サイズのQwen2.5と競合する性能
  • リポジトリはLGAI-EXAONE (LG AI Research)
  • Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.1]
    InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。 このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 18:57:08 GMT)
  • OSSのMLLM、性能は商用モデルと競合的とのこと。「we integrate a newly incrementally pre-trained InternViT with various pre-trained LLMs, including InternLM 2.5 and Qwen 2.5, using a randomly initialized MLP projector.」というアーキテクチャでViTをProjectorでLLMとつなぐアプローチ
  • リポジトリはOpenGVLab/InternVL2_5-78B · Hugging FaceGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
  • Owl-1: Omni World Model for Consistent Long Video Generation [75.5]
    Omni World ModeL (Owl-1) を提案する。 Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 18:59:01 GMT)
  • 動画生成モデル、リポジトリはGitHub – huang-yh/Owl

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です