- MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents [123.1]
MoNaCoは、1,315の自然で複雑な質問のベンチマークであり、解決には数十、数百の中間ステップが必要である。 我々の結果は、現実世界の情報検索の複雑さと厳密さに対処する推論モデルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (Fri, 15 Aug 2025 00:58:10 GMT) - 「we introduce MONACO, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve — far more than any existing QA benchmark.」というベンチマーク。ベンチマーク構築自体が大変になっているという印象。
- 結果としてはGPT-5よりもo3の性能の方が高いのが興味深い。
- リポジトリはGitHub – tomerwolgithub/monaco: https://huggingface.co/datasets/allenai/MoNaCo_Benchmark、データはallenai/MoNaCo_Benchmark · Datasets at Hugging Face
月: 2025年9月
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 13:32:12 GMT) - 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
- リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit
- Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.8]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。 推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。 我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 03:17:17 GMT) - overthinking対策のため、</think>出現の監視は不十分として、推論終了ポイント Reasoning Completion Point (RCP)を検知するタスクを提案。推論過程をinsufficient exploration stage, compensatory reasoning stage, reasoning convergence stageに分類し、2ステージ目の終了時点をRCPとしている。
- 「We explicitly define the Reasoning Completion Point and propose a clear analytical framework for determining the optimal termination point in reasoning. Leveraging feature importance analysis via CatBoost models, we further mine common signals indicative of reasoning completion, from which we distill a concise and efficient set of heuristic rules named Reasoning Completion Point Detection. This rule set precisely identifies RCP with minimal computational over- head, effectively mitigating overthinking in LLMs.」とのこと。トークン数削減だけなく、推論性能上も有利なのが興味深い。
Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE
先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された(https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face)。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された(VibeVoice)。特化型を使う場面も多々残っていてありがたい。
- InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。 主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。 我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:58:17 GMT) - InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。(パラメータサイズの差かQwen3の方が性能が高い。)
- リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face
- Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。 データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 17:45:06 GMT) - リポジトリはHermes 4 Collection – a NousResearch Collection
- VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。 本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 17:09:12 GMT) - リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech
From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery
- From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery [90.6]
エージェントAIは仮説生成、実験設計、実行、分析、反復的洗練の能力を示す。 この調査は、生命科学、化学、材料科学、物理学にまたがる自律的な科学的発見のドメイン指向のレビューを提供する。
論文 参考訳(メタデータ) (Mon, 18 Aug 2025 05:25:54 GMT) - 最近流行りの科学のためのAIに関するサーベイ。「(i) trace the evolution of AI for Science, (ii) identify five core capabilities underpinning scientific agency, (iii) model discovery as a dynamic four-stage workflow, (iv) review applications across life sciences, chemistry, materials science, and physics, and (v) synthesize key challenges and future opportunities. This work establishes a domain-oriented synthesis of autonomous scientific discovery and positions Agentic Science as a structured paradigm for advancing AI-driven research.」と広範な内容。
- プロジェクトサイトはFrom AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery、リポジトリはGitHub – AgenticScience/Awesome-Agent-Scientists