ERNIE4.5(GitHub – bigdavidone/ERNIE4_5: The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit based on PaddlePaddle.)の登場の他、公開モデルも色々と出ている。効率的な構造、一定の特化を行うことで商用モデルに迫る性能を達成しているものも多い。
ERNIE 4.5 Technical Report
本報告では、10種類の異なるバリアントからなる新しい大規模マルチモーダルモデル「ERNIE 4.5」を紹介しています。このモデルは、47Bおよび3Bのアクティブパラメータを持つMixture-of-Experts(MoE)アーキテクチャを採用し、テキスト関連タスクの性能を向上させつつマルチモーダル理解を強化します。全てのモデルはApache 2.0の下で公開され、研究や開発の支援を目的としたオープンソースの開発ツールキットも提供されています。論文Publication | ERNIE Blog
- Kwai Keye-VL Technical Report [80.5]
ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。 Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。 提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
論文 参考訳(メタデータ) (Wed, 02 Jul 2025 17:57:28 GMT) - プロジェクトサイトはKwai Keye
- Ovis-U1 Technical Report [17.2]
我々は,マルチモーダル理解,テキスト・ツー・イメージ生成,画像編集機能を統合した統一モデルであるOvis-U1を紹介する。 テキスト・画像生成では、それぞれ DPG-Bench と GenEval のベンチマークで 83.72 と 0.89 のスコアを出力する。 画像編集では、ImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00と6.42を達成している。
論文 参考訳(メタデータ) (Sun, 29 Jun 2025 00:40:17 GMT) - GitHub – AIDC-AI/Ovis-U1: An unified model that seamlessly integrates multimodal understanding, text-to-image generation, and image editing within a single powerful framework.
- GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [112.5]
GLM-4.1V-9B-Thinkingは、汎用マルチモーダル理解と推論を促進するために設計された視覚言語モデル(VLM)である。 モデルの潜在能力を最大限に活用するために,カリキュラムサンプリングを用いた強化学習を提案する。 オープンソースのGLM-4.1V-9B-Thinkingは、同等の大きさのモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 02 Jul 2025 15:53:43 GMT) - GLMシリーズのマルチモーダルモデル。高性能。
- GitHub – THUDM/GLM-4.1V-Thinking: GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning.
- Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning [4.6]
Confucius3-Mathは,1つのコンシューマグレードGPU上で効率的に動作する14Bパラメータを備えた,オープンソースの大規模言語モデルである。 このレポートでは、開発レシピ、直面する課題、それらを克服するために開発するテクニックを共有します。
論文 参考訳(メタデータ) (Wed, 25 Jun 2025 10:49:23 GMT) - 一定の特化を行うことで高性能を実現した事例
- GitHub – netease-youdao/Confucius3-Math