コンテンツへスキップ
- Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.2]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。 分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。 これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文 参考訳(メタデータ) (Wed, 21 Jan 2026 16:47:05 GMT)
- 論文の大規模分析、基本的にはスタンダードなプロセスのように見えるがLLMを効果的に使っている点に注目。「Tsinghua University emphasizes directions such as knowledge distillation, graph neural networks, adversarial training, domain adaptation, and model generalization, while Carnegie Mellon University demonstrates strong performance in areas like robotic grasping and manipulation strategies and causal discovery.」といったfindingsは面白い。
- リポジトリはGitHub – xzc-zju/Profiling_Scientific_Literature
- Towards Execution-Grounded Automated AI Research [106.9]
現在のLLMはしばしばもっともらしく見えるが効果のないアイデアを生成します。実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。 我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。 本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文 参考訳(メタデータ) (Tue, 20 Jan 2026 22:35:44 GMT)
- 「we develop a large-scale automated idea executor system that can implement research ideas for open-ended and realistic research problems. Using this automated executor, we conduct an in-depth analysis of how well LLM ideators can learn from execution feedback to improve effectiveness through evolutionary search and RL. Execution- guided evolutionary search is sample-efficient and effective, but shows limited scaling. RL from execution reward suffers from diversity collapse and does not improve the upperbound.」とのことで可能性とともに限界を感じる結果
- リポジトリはGitHub – NoviScl/Automated-AI-Researcher
- ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios [8.3]
ViDoRe v3は、視覚的にリッチなドキュメントコーパス上のマルチタイプクエリを特徴とする総合マルチモーダルRAGベンチマークである。 さまざまな専門家ドメインにまたがる10のデータセットをカバーしており、26,000のドキュメントページと3,099の人間認証クエリをペアにしている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 15:00:33 GMT)
- 「We introduce ViDoRe V3, a comprehensive multi- modal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising 26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages.」というベンチマーク。「Evaluating state-of-the-art RAG pipelines, we find that visual retrievers outperform textual ones, late interaction and textual reranking yield substantial gains, and visual context improves answer generation quality.」が意外。
- リポジトリはvidore (Vidore)
- YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.1]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。 YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。 リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 02:23:18 GMT)
- 「Instead of producing opaque binary judgments, YuFeng-XGuard generates structured risk predictions, including explicit risk categories and configurable confidence scores, accompanied by natural language explanations that expose the underlying reasoning process.」と詳細を出してくれるガードレール。
- モデルはAlibaba-AAIG/YuFeng-XGuard-Reason-8B · Hugging Face
- Aligning Agentic World Models via Knowledgeable Experience Learning [68.9]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Mon, 19 Jan 2026 17:33:31 GMT)
- 「 our World Knowledge Repository accumulates two distinct types of experience. First, Process Experience is derived from prediction errors to enforce physical feasibility, ensuring internal simulations strictly adhere to the immutable laws of reality. Second, Goal Experience is distilled from successful trajectories to serve as procedural heuristics, guiding the simulation to efficiently converge toward the task objective.」と2種類の情報を用いるタイプの手法
- リポジトリはGitHub – zjunlp/WorldMind: Aligning Agentic World Models via Knowledgeable Experience Learning、プロジェクトサイトはWorldMind: Aligning Agentic World Models
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.6]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。 私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。 次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:27:27 GMT)
- 「we introduce HumanLLM, a foundation model specifically designed to advance the personalized understanding and simulation of human cognition and behaviors.」と近年流行りつつあるLLM basedな社会シミュレーションのためのモデルの提案。「Extensive experiments across in-domain tasks, out-of-domain benchmarks, and real-world applications demonstrate that HumanLLM is a superior social data generator, human explainer, and user simulator. 」と有効性を主張。
- リポジトリはAnonymized Repository – Anonymous GitHub、https://aka.ms/humanllm
- The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.3]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。 従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。 私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 03:09:18 GMT)
- 「We introduce Trainee-Bench, a benchmark designed to bridge the gap between static setups and dynamic and uncertain workplace scenarios. Constructed via a bottom-up strategy that links atomic skills to holistic workflows, Trainee-Bench orchestrates rule-based meta-task templates into complex, time-constrained scenarios, supported by an auto- mated verification mechanism for rigorous assessment.」というベンチマーク。この手のベンチマークが一定成立できるようになった進化がすごいと思いつつ、公開モデルはかなり苦労している。
- リポジトリはGitHub – KnowledgeXLab/EvoEnv
- LLM-in-Sandbox Elicits General Agentic Intelligence [142.7]
我々はLLM-in-Sandboxを導入し、LLMがコードサンドボックス(仮想コンピュータ)内で探索し、非コードドメインの汎用インテリジェンスを引き出すことを可能にする。 コードサンドボックスを非コードタスクに活用するための一般化機能を示す。 実験により、LLM-in-Sandboxは、無訓練と後訓練の両方の環境で、数学、物理学、化学、生医学、長文理解、そして次の指示にまたがる堅牢な一般化を実現することが示された。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 18:57:09 GMT)
- LLMがSandboxを用いることの有効性を示す論文。「We anticipate sandbox environments will become standard infrastructure, transforming LLMs from text generators into general-purpose digital workers.」とも主張。コード生成を介した処理が有効であるのは良く知られていて納得感のある結果に思う。
- リポジトリはLLM-in-Sandbox Demo
- Agentic Confidence Calibration [67.5]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。 HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。 HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:08:25 GMT)
- 「Our work addresses compounding uncertainty, heterogeneous signals, and data scarcity, yielding three key takeaways: (1) calibration relies on a hierarchy of diagnostic signals; (2) HTC features capture a transferable “uncertainty patterns” enabling strong cross-task generalization while exposing limits under distribution shift; and (3) a pretrained General Agent Calibrator (GAC) achieves the best ECE (zero-shot) on unseen tasks like GAIA, providing a plug-and-play foundation.」とエージェントの信頼度を総合的に評価していくフレームワーク
- The AI Hippocampus: How Far are We From Human Memory? [77.0]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。 明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。 エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 03:24:08 GMT)
- 「Implicit memory refers to the knowledge embedded within the internal parameters of pre-trained transformers, encompassing their capacity for memorization, associative retrieval, and contextual reasoning. Recent work has explored methods to interpret, manipulate, and reconfigure this latent memory. Explicit memory involves external storage and retrieval components de- signed to augment model outputs with dynamic, queryable knowledge representations—such as textual corpora, dense vectors, and graph-based structures—thereby enabling scalable and updatable interaction with information sources. Agentic memory introduces persistent, temporally extended memory structures within autonomous agents, facilitating long-term planning, self-consistency, and collaborative behavior in multi-agent systems, with relevance to embodied and interactive AI.」という、AI Memory、いわゆるAIの記憶に関するサーベイ。
- リポジトリはhttps://github.com/bigai-nlco/LLM-Memory-Survey