A Definition of AGI

  • A Definition of AGI [208.3]
    人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。 そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 01:28:35 GMT)
  • AGIをよく教育された成人と同レベルの認知的な多様性と熟練度を持つものと定義、定量化のフレームワークを提案。「This paper introduces a quantifiable framework to address this, defining AGI as matching the cognitive versatility and proficiency of a well-educated adult. To operationalize this, we ground our methodology in Cattell-Horn-Carroll theory, the most empirically validated model of human cognition. The framework dissects general intelligence into ten core cognitive domains—including reasoning, memory, and perception—and adapts established human psychometric batteries to evaluate AI systems.」
  • 定義やスコア(GPT-4は27%、GPT-5は58%)に対する見解は様々だと思うが、「Long-Term Memory Storage (MS): The capability to continually learn new information (associative, meaningful, and verbatim).」が最大の課題となっているように見え、そこは納得。

FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis

  • FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.6]
    HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 17:21:56 GMT)
  • 金融ドメインのDeepResearchの評価。o3 deepresearchの性能が高い(Grok4やGemini 2.5 Proとは僅差)が「Our experiments suggest that even top-performing DR agents struggle to consistently balance a coherent analytical structure with factual accuracy. This imbalance remains the primary barrier to their deployment in high-stakes applications.」とのこと。。