HippoRAG2, RAG vs Graph RAG, A-MEM: Agentic Memory for LLM Agents

xRAG、FlashRAG、HippoRAG – arXiv最新論文の紹介の改善や、RAGとGraphRAGとの比較、AgenticなアプローチなどRAGやメモリ強化関連の研究は盛ん。得意領域が異なるのでハイブリッド化する動きが多く、また、Agenticに対応していくアプローチも多い印象。

  • RAG vs. GraphRAG: A Systematic Evaluation and Key Insights [42.3]
    我々は,テキストベースベンチマークを用いて,検索型拡張生成(RAG)とグラフRAGを体系的に評価する。 本結果は,RAGとGraphRAGの異なる課題と評価の観点から,それぞれ異なる強みを浮き彫りにしている。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 02:36:30 GMT)
  • 通常のRAGとGraphRAGの詳細な比較
  • 「Community-based GraphRAG with Global Search focuses more on the global aspects of whole corpus, whereas RAG captures more detailed information.」とのこと
  • A-MEM: Agentic Memory for LLM Agents [42.5]
    大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。 現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。 本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 18:36:14 GMT)
  • Agenticなデータの保持。「1) Link Generation – automatically establishing connections between memories by identifying shared attributes and similar contextual descriptions, and (2) Memory Evolutionenabling existing memories to dynamically evolve as new experiences are analyzed, leading to the emergence of higher-order patterns and attributes.」とのことで、下記のように動作するとのこと。
    • Generates comprehensive notes with structured attributes
    • Creates contextual descriptions and tags
    • Analyzes historical memories for relevant connections
    • Establishes meaningful links based on similarities
    • Enables dynamic memory evolution and updates
  • リポジトリはGitHub – WujiangXu/AgenticMemory

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines 

  • SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.0]
    大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。 しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:05:58 GMT)
  • ByteDanceによる広範かつ難しいベンチマークの提案。DeepSeek R1の成績が良い他、Doubao 1.5pro – Doubao Teamも好成績。overallだとDeepSeek-R1 > DeepSeek-R1-Zero > o1-2024-12-17 > o3-mini-2025-01-31-high > o3-mini-2025-01-31-medium > Doubao-1.5-pro-32k-250115 > qwen-max-2025-01-25 > claude-3-5-sonnet-20241022 > o3-mini-2025-01-31-low > gemini-2.0-flashというのが現在のリーダーボード
  • リポジトリはsuper gpqa

Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC 

  • PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.8]
    本稿では,PC-Agentという階層型エージェントフレームワークを提案する。 認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。 意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 05:41:55 GMT)
  • (1) Active Perception Module、(2) Hierarchical Multi-agent Collaboration、(3) Reflection-based Dynamic Decision-makingを特徴とするフレームワークの提案。評価のためのベンチマークも構築。UFOやAgent-Sに比べ優位性を主張。
  • Manger Agent 、Progress Agent 、Decision Agent 、Reflection Agent のマルチエージェント構成。

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?