Putting It All into Context: Simplifying Agents with LCLMs 

  • Putting It All into Context: Simplifying Agents with LCLMs [36.6]
    足場やツールを含まないGemini-1.5-Proモデルでは,SWE-Bench-Verifiedでは38%を実現している。 Gemini-1.5-Proの非スキャフォールドアプローチは最も強力なエージェントアーキテクチャには及ばないが、同じ非スキャフォールドアプローチを使用するより有能なGemini-2.5-Proが直接50.8%の解率に達することを実証する。
    論文  参考訳(メタデータ)   (Mon, 12 May 2025 23:22:27 GMT)
  • ソフトウェア開発&LLMの分野ではAgenticなアプローチが流行っているが「the core of our workflow is the use of LCLMs that receive the entire code repository and directly outputs the solution (DIRECTSOLVE), analogous to standard zero-shot prompting tasks where LMs have demonstrated strong performance.」とlong context対応モデルの性能を信じたアプローチが有効であるとの報告。「We show that LCLMs can drastically simplify agent design on software engineering tasks, outperforming more complex pipelines by 3 – 6%, without any scaffolding or tools.」とのこと。
  • RAG vs LCでもlong contextの有効性は知られていて、それとも整合的に見える。
    • (とはいえRAGが必要な部分はある)

SITE: towards Spatial Intelligence Thorough Evaluation

  • SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
    空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。 ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
    論文  参考訳(メタデータ)   (Thu, 08 May 2025 17:45:44 GMT)
  • Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。(そしてInternVL-2.5-8Bのスコアが意外と高い)
  • プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation