コンテンツへスキップ
- OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists [47.4]
我々は、人間の研究の基盤となるメカニズムをAI科学ワークフローにエンコードするフレームワークであるOmniScientistを紹介します。 OmniScientistは、データ基盤全体にわたるエンドツーエンドの自動化、文献レビュー、研究のアイデア、実験の自動化、科学的執筆、ピアレビューを実現している。 このインフラは、エージェントが人間の知識システムを理解し、活用するだけでなく、協力し、共同開発することを可能にする。
論文 参考訳(メタデータ) (Fri, 21 Nov 2025 03:55:19 GMT)
- 「OmniScientist not only achieves end-to-end automation across data foundation, literature review, research ideation, experiment automation, scientific writing, and peer review, but also provides comprehensive infrastructural support by simulating the human scientific system, comprising: (1) a structured knowledge system built upon citation networks and conceptual correlations; (2) a collaborative research protocol (OSP), which enables seamless multi-agent collaboration and human researcher participation; and (3) an open evaluation platform (ScienceArena) based on blind pairwise user voting and Elo rankings. This infrastructure em- powers agents to not only comprehend and leverage human knowledge systems but also to collaborate and co-evolve, fostering a sustainable and scalable innovation ecosystem.」と非常に強力なエージェントであることを主張、ケーススタディで有効性を確認している。現時点ではAI研究が主たるターゲットになっているよう。
- OmniScientistにサイトが公開されている
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (Tue, 25 Nov 2025 21:08:07 GMT)
- 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。
- Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We’re Asking [1.1]
本研究では,モデルカットオフ日を超えて発生した事象に関する実世界の質問に対して,モデルファミリの異なるモデルファミリで,予測性能がどう変化するかを検討する。 我々は,文脈,質問タイプ,外部知識が精度やキャリブレーションにどのように影響するか,事実的ニュースコンテキストの追加が信念の形成や失敗モードをどう修正するかを分析する。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 10:41:19 GMT)
- LLMの予測能力の検証と失敗事例の分析、「Forecasting competence in LLMs is highly uneven, reflecting not only data coverage but the cognitive framing embed- ded in prompts. While we may expect adding recent news should improve forecasting accuracy, we find that sometimes it does while at other times it makes it worse because of definition drift, rumour anchoring and recency bias etc. emergent, and invite design of benchmarks that disentangle knowledge recall from probabilistic inference.」はまぁそうだろうと思う。