Deep Research API, Gemini CLI, Mistral-Small-3.2-24B, Hunyuan-A13B, OpusLM

様々なニュースがあるが、先週の注目はDeepResearchAPIの登場(Introduction to deep research in the OpenAI API)、Gemini CLIのリリース(Gemini CLI : オープンソース AI エージェント | Google Cloud 公式ブログ)のように思う。LLMやLRMなど基盤モデルを提供するベンダーが応用領域にも進出してくるのは生成AI周りでは特徴的。より付加価値を得ていく動きとしては当然ではあるが、API利用で勝負しているベンダーやスタートアップにとってはつらい展開が続く。

Mistralからはmistralai/Mistral-Small-3.2-24B-Instruct-2506 · Hugging Faceが出ていた。また、Tencentからは80B, 13 ActiveなMoE・ReasoningハイブリッドモデルのHunyuan-A13Bが発表されている(GitHub – Tencent-Hunyuan/Hunyuan-A13B: Tencent Hunyuan A13B (short as Hunyuan-A13B), an innovative and open-source LLM built on a fine-grained MoE architecture.)。

別軸でOpenなSpeechLMも発表されている。オープンな動きにも注目したい。

  • OpusLM: A Family of Open Unified Speech Language Models [56.1]
    OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。 本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
    論文  参考訳(メタデータ)   (Sat, 21 Jun 2025 06:30:59 GMT)
  • Open Unified Speech Language Models でOpusLMs
  • モデルはespnet/OpusLM_7B_Anneal · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です