QwQ-32B, Jamba 1.6, RWKV7 G1, Aya Vision, Mistral OCR, DeepSeek Open Source Week

先週も様々なニュースがあった。

QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。

Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。

RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)

Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。

Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。

DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です