様々なニュースがあるが、先週の注目はDeepResearchAPIの登場(Introduction to deep research in the OpenAI API)、Gemini CLIのリリース(Gemini CLI : オープンソース AI エージェント | Google Cloud 公式ブログ)のように思う。LLMやLRMなど基盤モデルを提供するベンダーが応用領域にも進出してくるのは生成AI周りでは特徴的。より付加価値を得ていく動きとしては当然ではあるが、API利用で勝負しているベンダーやスタートアップにとってはつらい展開が続く。
Mistralからはmistralai/Mistral-Small-3.2-24B-Instruct-2506 · Hugging Faceが出ていた。また、Tencentからは80B, 13 ActiveなMoE・ReasoningハイブリッドモデルのHunyuan-A13Bが発表されている(GitHub – Tencent-Hunyuan/Hunyuan-A13B: Tencent Hunyuan A13B (short as Hunyuan-A13B), an innovative and open-source LLM built on a fine-grained MoE architecture.)。
別軸でOpenなSpeechLMも発表されている。オープンな動きにも注目したい。
- OpusLM: A Family of Open Unified Speech Language Models [56.1]
OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。 本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
論文 参考訳(メタデータ) (Sat, 21 Jun 2025 06:30:59 GMT) - Open Unified Speech Language Models でOpusLMs
- モデルはespnet/OpusLM_7B_Anneal · Hugging Face