2025年9月1日 – arXiv最新論文の紹介

先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された（https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face）。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された（VibeVoice）。特化型を使う場面も多々残っていてありがたい。

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:58:17 GMT)
InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。（パラメータサイズの差かQwen3の方が性能が高い。）
リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face

Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:45:06 GMT)
リポジトリはHermes 4 Collection – a NousResearch Collection

VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文参考訳（メタデータ） (Tue, 26 Aug 2025 17:09:12 GMT)
リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [90.6]
エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
論文参考訳（メタデータ） (Mon, 18 Aug 2025 05:25:54 GMT)
最近流行りの科学のためのAIに関するサーベイ。「(i) trace the evolution of AI for Science, (ii) identify five core capabilities underpinning scientific agency, (iii) model discovery as a dynamic four-stage workflow, (iv) review applications across life sciences, chemistry, materials science, and physics, and (v) synthesize key challenges and future opportunities. This work establishes a domain-oriented synthesis of autonomous scientific discovery and positions Agentic Science as a structured paradigm for advancing AI-driven research.」と広範な内容。
プロジェクトサイトはFrom AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery、リポジトリはGitHub – AgenticScience/Awesome-Agent-Scientists

日: 2025年9月1日

Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

2025年9月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30