コンテンツへスキップ
- ThetaEvolve: Test-time Learning on Open Problems [110.6]
In-context LearningとReinforcement Learning(RL)の両方をテスト時に効率的にスケールするために、AlphaEvolveを単純化し拡張するオープンソースのフレームワークであるThetaEvolveを紹介します。 テスト時にRLを使用するThetaEvolveは、推論のみのベースラインよりも一貫して優れています。
論文 参考訳(メタデータ) (Fri, 28 Nov 2025 18:58:14 GMT)
- 「We introduce ThetaEvolve, an open-source framework that simplifies and extends AlphaEvolve to efficiently scale both in-context learning and Reinforcement Learning (RL) at test time, allowing models to continually learn from their experiences in improving open optimization problems. ThetaEvolve features a single LLM, a large pro- gram database for enhanced exploration, batch sampling for higher throughput, lazy penalties to discourage stagnant outputs, and optional reward shaping for stable training signals, etc.」とOSS版AlphaEvolve的な研究。「(2) Surprisingly, we show that when scaling test-time compute with ThetaEvolve, a single open-source 8B model, DeepSeek-R1-0528-Qwen3-8B (DeepSeek-AI, 2025), can improve the best-known bounds of two open problems considered in AlphaEvolve」と効果を確認している。
- リポジトリはGitHub – ypwang61/ThetaEvolve: ThetaEvolve: Test-time Learning on Open Problems
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.2]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。 本研究では,LLMの生成能力と評価能力の関係について検討した。 モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 18:33:24 GMT)
- generation-evaluation consistency (GE-consistency)に注目した評価ベンチマークの提案。
- リポジトリはGitHub – yale-nlp/AlignEval
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.8]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。 ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。 その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 18:59:52 GMT)
- 「We introduce ARM-Thinker, an agentic reasoning reward model that judges with an explicit think– act–verify loop: it plans reasoning steps, invokes multimodal tools (e g , document retrieval and navigation for long PDFs) to gather evidence, and issues an evidencegrounded scalar score with an interpretable rationale.」とAgenticな動作を持つ手法の提案。「We present a scalable data- generation pipeline that constructs verifiable discriminative preference pairs for training agentic reward models. Trained on this data, our ARMThinker-7B achieves performance competitive with, and in some cases superior to, proprietary models like GPT-4o on reward-modeling and tool-use benchmarks, demonstrating the effectiveness of agentic judgment.」とPost trainingはまだまだ有力な選択肢にも思える。
- リポジトリはGitHub – InternLM/ARM-Thinker: Official Code for “ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning”