Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE – arXiv最新論文の紹介

先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された（https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face）。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された（VibeVoice）。特化型を使う場面も多々残っていてありがたい。

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:58:17 GMT)
InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。（パラメータサイズの差かQwen3の方が性能が高い。）
リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face

Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:45:06 GMT)
リポジトリはHermes 4 Collection – a NousResearch Collection

VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文参考訳（メタデータ） (Tue, 26 Aug 2025 17:09:12 GMT)
リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル