The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? 

  • The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6]
    本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 05:37:08 GMT)
  • 「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。
  • 何らかの情報が増えているわけではないのでTTCにパワーを使っている効果が出ているという解釈で良いのだろうか。

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

  • Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.9]
    我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。 これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。 並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 07:21:11 GMT)
  • 必ず長い推論が性能向上につながっておらず「These results reveal that self-revision ability is a key factor in the effectiveness of sequential scaling for o1-like models.」だったとのこと。実験結果から「Shortest Majority Vote, which incorporate parallel scaling approaches with our insight on sequential scaling.」を提案。
  • 前半はThe Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks – arXiv最新論文の紹介を思いうかぶ。提案手法の再現実験などが気になるところ。

Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study 

  • Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.4]
    GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。 GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
    論文  参考訳(メタデータ)   (Fri, 07 Feb 2025 06:59:27 GMT)
  • 「Parallel-First Monolingual-Second (PFMS) data mixing strategy」を用い「To the best of our knowledge, GemmaX2-28-9B is the open model with the highest translation quality.」を主張する機械翻訳モデルの提案。データのレシピによって翻訳性能がかなり変わるのがとても参考になる。
  • リポジトリはGemmaX2 – a ModelSpace Collection

HippoRAG2, RAG vs Graph RAG, A-MEM: Agentic Memory for LLM Agents

xRAG、FlashRAG、HippoRAG – arXiv最新論文の紹介の改善や、RAGとGraphRAGとの比較、AgenticなアプローチなどRAGやメモリ強化関連の研究は盛ん。得意領域が異なるのでハイブリッド化する動きが多く、また、Agenticに対応していくアプローチも多い印象。

  • RAG vs. GraphRAG: A Systematic Evaluation and Key Insights [42.3]
    我々は,テキストベースベンチマークを用いて,検索型拡張生成(RAG)とグラフRAGを体系的に評価する。 本結果は,RAGとGraphRAGの異なる課題と評価の観点から,それぞれ異なる強みを浮き彫りにしている。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 02:36:30 GMT)
  • 通常のRAGとGraphRAGの詳細な比較
  • 「Community-based GraphRAG with Global Search focuses more on the global aspects of whole corpus, whereas RAG captures more detailed information.」とのこと
  • A-MEM: Agentic Memory for LLM Agents [42.5]
    大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。 現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。 本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 18:36:14 GMT)
  • Agenticなデータの保持。「1) Link Generation – automatically establishing connections between memories by identifying shared attributes and similar contextual descriptions, and (2) Memory Evolutionenabling existing memories to dynamically evolve as new experiences are analyzed, leading to the emergence of higher-order patterns and attributes.」とのことで、下記のように動作するとのこと。
    • Generates comprehensive notes with structured attributes
    • Creates contextual descriptions and tags
    • Analyzes historical memories for relevant connections
    • Establishes meaningful links based on similarities
    • Enables dynamic memory evolution and updates
  • リポジトリはGitHub – WujiangXu/AgenticMemory

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines 

  • SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.0]
    大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。 しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 17:05:58 GMT)
  • ByteDanceによる広範かつ難しいベンチマークの提案。DeepSeek R1の成績が良い他、Doubao 1.5pro – Doubao Teamも好成績。overallだとDeepSeek-R1 > DeepSeek-R1-Zero > o1-2024-12-17 > o3-mini-2025-01-31-high > o3-mini-2025-01-31-medium > Doubao-1.5-pro-32k-250115 > qwen-max-2025-01-25 > claude-3-5-sonnet-20241022 > o3-mini-2025-01-31-low > gemini-2.0-flashというのが現在のリーダーボード
  • リポジトリはsuper gpqa

Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC 

  • PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.8]
    本稿では,PC-Agentという階層型エージェントフレームワークを提案する。 認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。 意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 05:41:55 GMT)
  • (1) Active Perception Module、(2) Hierarchical Multi-agent Collaboration、(3) Reflection-based Dynamic Decision-makingを特徴とするフレームワークの提案。評価のためのベンチマークも構築。UFOやAgent-Sに比べ優位性を主張。
  • Manger Agent 、Progress Agent 、Decision Agent 、Reflection Agent のマルチエージェント構成。

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? 

Towards an AI co-scientist, Grok-3, Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling

AIの共同科学者は、新しい独自の知識を発見し、実証可能な新しい研究仮説と提案を定式化し、事前の証拠に基づいて科学者が提供する研究目標とガイダンスに整合させることを意図している。システムの設計には、テスト時間計算のスケーリングによって加速される仮説生成に対する生成、議論、進化のアプローチが組み込まれている。主な貢献は、(1)フレキシブルな計算スケーリングのための非同期タスク実行フレームワークを備えたマルチエージェントアーキテクチャ、(2)自己改善仮説生成のためのトーナトーナメント進化プロセスである。本システムは, 臨床応用濃度で腫瘍抑制をin vitroで示す急性骨髄性白血病の候補を含む, 有望なバリデーションの候補を提案する。
Google Research launches new scientific research tool, AI co-scientist ai_coscientist.pdf

GoogleによるAIを用いた科学者支援の提案、「Its ability to generate novel testable hypotheses across diverse scientific and biomedical domains, some supported by experimental findings, along with the capacity for recursive self-improvement with increasing compute, demonstrates the promise of meaningfully accelerating scientists’ endeavours to resolve grand challenges in human health, medicine and science.」と主張。パイプライン構成(とマルチエージェントな構成)も凝ったものになっている。Google AI co-scientist Trusted Tester Program で申し込みが可能とのこと。

xAIによるGrok-3やDeepSearchの発表(Grok 3 Beta — The Age of Reasoning Agents)やNVIDIAのAutomating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling | NVIDIA Technical Blogも調査などのタスクにAIが組み込まれていく・必須のものになっていくことを示唆しているように思う。オープンな取り組みを含め様々なトライが行われていて今後が楽しみ。

How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation

  • How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.7]
    本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。 総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 15:29:32 GMT)
  • 人のデジタルツインを構築できるのであれば可能なはずの連続的行動の予測に関するベンチマーク。「BEHAVIORCHAIN instance is composed of four key components: a persona profile p, a historical narrative h, a behavior chain B = {b1,b2,…,bn} of the specific persona, and the contextual setting for each behavior C = {c1,c2,…,cn}.」というデータセットで「BEHAVIORCHAIN comprises 1,001 high-quality, persona-based behavior chains, each containing 10–20 context-behavior nodes, automatically extracted from fiction and biographical literature.」とのこと。GPT-4oでも解くのが難しいタスクになっているようだがLlamaの性能が意外と高い。Leakの影響は気になるが面白いタスク。
  • リポジトリはGitHub – O-L1RU1/BehaviorChain