Claude 4 sonnetレベルのQwen3 Coder(QwenLM/Qwen3-Coder: Qwen3-Coder is the code version of Qwen3, the large language model series developed by Qwen team, Alibaba Cloud.)、235B MoE language model (Qwen3) + 6B Vision encoder (InternViT)で強力なマルチモーダルLRM Intern S1(InternLM/Intern-S1)、Kimi K2のテクニカルレポート公開(Kimi-K2/tech_report.pdf at main · MoonshotAI/Kimi-K2)、と中国のモデルに関する話題が多かった。Qwen3-Instruct-2507(QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.)でKIMI K2越えが主張されたりと競争が激しい。
音声関連でもStepFunからStep-Audio 2 Technical Report、TeleAIからTECHNICAL REPORT OF TELECHAT2, TELECHAT2.5 AND T1が公開されている。いずれも優れた性能を主張。加えてGR-3のようなロボット関連の論文にも興味津々。
そして、もう間もなく、GPT-5が発表されるはずで、進化は続きそう。
- Step-Audio 2 Technical Report [108.0]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。 遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (Thu, 24 Jul 2025 11:13:12 GMT) - リポジトリはstepfun-ai/Step-Audio2: Step-Audio 2 is an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation.
- Technical Report of TeleChat2, TeleChat2.5 and T1 [40.9]
最新のTeleChatモデルについて紹介する: TeleChat2, TeleChat2.5, T1。 モデルアーキテクチャの最小限の変更にもかかわらず、新しいシリーズは、強化されたトレーニング戦略によって、大幅なパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (Thu, 24 Jul 2025 01:00:48 GMT) - リポジトリはTele-AI/TeleChat2: 星辰语义大模型TeleChat2是由中国电信人工智能研究院研发训练的大语言模型,是首个完全国产算力训练并开源的千亿参数模型
- GR-3 Technical Report [21.9]
GR-3は、大規模な視覚言語アクション(VLA)モデルである。 抽象概念を含む新しいオブジェクト、環境、命令を一般化する際、例外的な能力を示す。 GR-3は、両手動操作や移動動作を必要とするタスクを含む、長い水平および外接なタスクの処理に長けている。
論文 参考訳(メタデータ) (Mon, 21 Jul 2025 10:54:13 GMT) - プロジェクトサイトはByteDance Seed
- Apple Intelligence Foundation Language Models: Tech Report 2025 [246.0]
AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。 どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。 新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
論文 参考訳(メタデータ) (Thu, 17 Jul 2025 23:37:19 GMT) - Apple IntelligenceのテクニカルレポートがarXivに公開されていた。
- 「We found that AFM on-device model performs better than Qwen-2.5-3B, Gemma-3-4B and Gemma-3n-E4B on MMLU/MMMLU, but it lags slightly behind Gemma-3n-E4B on MGSM. AFM on-device model performs lower than the larger Qwen-3-4B model. AFM server models lag slightly to LLaMA 4 Scout, whose total size and active number of parameters are comparable, but has a bigger gap to larger models such as Qwen-3-235B and the proprietary GPT-4o.」と評価している。