- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.2]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。 本研究では,LLMの生成能力と評価能力の関係について検討した。 モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 18:33:24 GMT) - generation-evaluation consistency (GE-consistency)に注目した評価ベンチマークの提案。
- リポジトリはGitHub – yale-nlp/AlignEval
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.8]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。 ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。 その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 18:59:52 GMT) - 「We introduce ARM-Thinker, an agentic reasoning reward model that judges with an explicit think– act–verify loop: it plans reasoning steps, invokes multimodal tools (e g , document retrieval and navigation for long PDFs) to gather evidence, and issues an evidencegrounded scalar score with an interpretable rationale.」とAgenticな動作を持つ手法の提案。「We present a scalable data- generation pipeline that constructs verifiable discriminative preference pairs for training agentic reward models. Trained on this data, our ARMThinker-7B achieves performance competitive with, and in some cases superior to, proprietary models like GPT-4o on reward-modeling and tool-use benchmarks, demonstrating the effectiveness of agentic judgment.」とPost trainingはまだまだ有力な選択肢にも思える。
- リポジトリはGitHub – InternLM/ARM-Thinker: Official Code for “ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning”
Mistral 3, Deepseek V3.2, OpenRouter State of AI, Poetiq
先週の大きな話題はMistral3の発表(XユーザーのMistral AIさん: 「Introducing the Mistral 3 family of models: Frontier intelligence at all sizes. Apache 2.0. Details in 🧵 https://t.co/lsrDmhW78u」 / X、Introducing Mistral 3 | Mistral AI)とDeepSeek v3.2(deepseek-ai/DeepSeek-V3.2-Speciale · Hugging Face)だった。いずれも強力な公開モデルであり、フロンティアモデルに近い性能を主張している。新たなモデル発表が相次ぎ、実際の性能検証はこれからという感じではあるが、着実に研究が進展している感がある。
OpenRouterから発表されたState of AI | OpenRouterも興味深いレポートだった。(バイアスはあるのだろうが)コード生成によく用いられている点、多様なモデルが利用されている点など興味深い。
PoetiqからのARC-AGI-2のSoTA(XユーザーのPoetiqさん: 「Poetiq has officially shattered the ARC-AGI-2 SOTA 🚀 @arcprize has officially verified our results: – 54% Accuracy – first to break the 50% barrier! – $30.57 / problem – less than half the cost of the previous best! We are now #1 on the leaderboard for ARC-AGI-2! https://t.co/a8tPtCynVY」 / X)に関する発表も興味深かった。詳細な検証(他チームのものを含む)待ちの面はあるのだろうが、Agenticな処理や複数のLLMの組み合わせには現在でも効果があるように思える。
- Introducing Mistral 3
Mistral 3が発表され、14B、8B、3Bの3種類の小型モデルと、41Bのアクティブパラメータを持つ最強のMistral Large 3が公開されました。これらはすべてApache 2.0ライセンスのもとオープンソース化され、開発者コミュニティに強い基盤を提供します。また、Mistral Large 3は、最新のNVIDIA GPUを用いて訓練され、マルチモーダル・マルチリンガル処理において高い性能を発揮します。 - Introducing Mistral 3 | Mistral AI
- DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models [219.6]
本稿では,より優れた推論とエージェント性能で高い計算効率を調和させるモデルであるDeepSeek-V3.2を紹介する。 計算複雑性を大幅に低減する効率的な注意機構であるDSAを導入する。 DeepSeek-V3.2は、堅牢な強化学習プロトコルを実装し、訓練後の計算をスケールすることにより、GPT-5と同等に動作する。
論文 参考訳(メタデータ) (Tue, 02 Dec 2025 09:25:14 GMT) - DeepSeek Sparse Attentionなど、内部構造にも踏み込んだ論文。
- 「(3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.」とAgenticな処理強化に力を入れている点にも注目。
- State of AI | OpenRouter
この一年は大規模言語モデル(LLM)の進化と実世界での利用において重要な転機となった。2024年12月に最初の広く採用された推論モデルo1が公開され、多段階の推論が可能になり、開発や実験が加速した。実際の使用に関するデータ分析により、オープンウェイトモデルの普及や創造的なロールプレイの人気など、多様な利用パターンが浮かび上がった。 - State of AI | OpenRouter
- Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost
Poetiqは最新のGemini 3とGPT-5.1モデルを迅速に統合し、低コストで高精度な結果を実現しました。このシステムは、ARC-AGI-1およびARC-AGI-2において新しいパレートフロンティアを築き、従来を上回る性能を発揮しています。Poetiqはまた、運用の柔軟性を活かし、最適なモデルの組み合わせを自動的に選択する能力を持つメタシステムを開発しました。 - Poetiq | ARC-AGI-2 SOTA at Half the Cost
- Poetiq | Traversing the Frontier of Superintelligenceによれば「The prompt is an interface, not the intelligence: Our system engages in an iterative problem-solving loop. It doesn’t just ask a single question; it uses the LLM to generate a potential solution (sometimes code as in this example), receives feedback, analyzes the feedback, and then uses the LLM again to refine it. This multi-step, self-improving process allows us to incrementally build and perfect the answer.Self-Auditing: The system autonomously audits its own progress. It decides for itself when it has enough information and the solution is satisfactory, allowing it to terminate the process. This self-monitoring is critical for avoiding wasteful computation and minimizing costs.」とのこと。
- リポジトリが公開されている、GitHub – poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq’s record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.
Measuring Agents in Production
- Measuring Agents in Production [133.8]
プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。 信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
論文 参考訳(メタデータ) (Tue, 02 Dec 2025 16:45:10 GMT) - AIエージェント利用に関する調査。現状は効率化や人間の補完を目指した利用が多い、課題は信頼性など納得感がある。「Production agents favor well-scoped, static work-flows: 68% execute at most ten steps before requiring human intervention, with 47% executing fewer than five steps. Furthermore, 85% of detailed case studies forgo third-party agent frameworks, opting instead to build custom agent ap- plication from scratch. Organizations deliberately constrain agent autonomy to maintain reliability.」も現状はそうだろうと思いつつ、徐々に変化していくんだろうなと思わなくもない。
Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
- Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6]
本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。 本手法は,3次元に対処することで,このスケーリングを実現する。 Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 16:57:02 GMT) - 「NexA4A (Agent for Agent), a generative system that automatically synthesizes diverse agent architectures and workflows from natural language specifications; and NexGAP (General Agent-data Pipeline), which leverages real-world Model Context Protocol (MCP) tools and information fusion to generate massive-scale, end-to-end trajectories rooted in authentic execution.」とエージェント化を前提とした軌跡生成のフレームワーク。「Future work will focus on evolving this infrastructure into a large-scale simulation platform for Reinforcement Learning. We aim to automatically construct environments that are not only highly diverse and increasingly difficult but also objectively verifiable.」と書かれたFuture workに期待大。
- リポジトリはGitHub – nex-agi/Nex-N1
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.5]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。 主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。 先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 06:27:38 GMT) - 「We release a new, highly challenging evaluation benchmark containing approximately 800 expert-created original problems. The benchmark focuses on multidisciplinary scientific reasoning, with a target difficulty set to a pass rate of less than 20% for current state-of-the- art models, to effectively measure the true capabilities of frontier models.」と非常に難しいベンチマーク
- リポジトリはGitHub – open-compass/ATLAS: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning、Gemini 3 Proの結果が気になるところ。
Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey
- Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
論文 参考訳(メタデータ) (Wed, 12 Nov 2025 01:00:43 GMT)
MagicWorld: Interactive Geometry-driven Video World Exploration
- MagicWorld: Interactive Geometry-driven Video World Exploration [30.5]
我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。 本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。 さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
論文 参考訳(メタデータ) (Mon, 24 Nov 2025 08:41:28 GMT) - ユーザアクション可能なビデオ生成モデル
- リポジトリはMagicWorld: Interactive Geometry-driven Video World Exploration
Latent Collaboration in Multi-Agent Systems
- Latent Collaboration in Multi-Agent Systems [140.5]
マルチエージェントシステム(MAS)は、独立した単一モデル推論から協調的なシステムレベルのインテリジェンスへと拡張される。 LLMエージェント間の純粋な遅延協調を可能にするエンドツーエンドのトレーニングフリーフレームワークであるLatentMASを紹介する。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 18:56:57 GMT) - 「we introduce LatentMAS, an end-to-end collaborative framework that operates entirely within the continuous latent space. Our core design integrates both internal latent thoughts generation and cross-agent latent working memory transfer.」というフレームワーク、表現力的にも計算コスト的に有利だろうというのは納得感がある。
- リポジトリはGitHub – Gen-Verse/LatentMAS: Latent Collaboration in Multi-Agent Systems (LatentMAS)
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
- What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity [40.3]
エージェントのパフォーマンスにおいて,アイデアの多様性が果たす役割について検討する。 異なるモデルとエージェントの足場は、様々なアイデアの多様性をもたらす。 高いパフォーマンスのエージェントは、アイデアの多様性を増す傾向にある。
論文 参考訳(メタデータ) (Wed, 19 Nov 2025 16:32:18 GMT) - 「This work started from the hypothesis that ideation diversity is a key bottleneck in AI research agents’ performance. We have confirmed this hypothesis by conducting a large-scale analysis on AI research agents’ trajectories and performing a controlled experiment.」とのこと。
- 科学へのAI適用に関する研究が急速に進んでいる状況で、このような検証はとても興味深い。