先週も様々なニュースがあった。
QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介、QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。
Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。
RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)
Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。
Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。
DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。
- GitHub – deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
- GitHub – deepseek-ai/FlashMLA: FlashMLA: Efficient MLA decoding kernels
- GitHub – deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library
- GitHub – deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
- GitHub – deepseek-ai/EPLB: Expert Parallelism Load Balancer
- GitHub – deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.
- GitHub – deepseek-ai/profile-data: Analyze computation-communication overlap in V3/R1.
- GitHub – deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
- GitHub – deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.
- open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open-infra-index · GitHub