コンテンツへスキップ
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 17:28:42 GMT)
- 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
- リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?
- FrontierCS: Evolving Challenges for Evolving Intelligence [174.8]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:52:45 GMT)
- 「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。
- プロジェクトサイトはFrontierCS
- Step-DeepResearch Technical Report [90.5]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 16:32:27 GMT)
- StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
- リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch