2025年5月21日 – arXiv最新論文の紹介

Putting It All into Context: Simplifying Agents with LCLMs [36.6]
足場やツールを含まないGemini-1.5-Proモデルでは,SWE-Bench-Verifiedでは38%を実現している。 Gemini-1.5-Proの非スキャフォールドアプローチは最も強力なエージェントアーキテクチャには及ばないが、同じ非スキャフォールドアプローチを使用するより有能なGemini-2.5-Proが直接50.8%の解率に達することを実証する。
論文参考訳（メタデータ） (Mon, 12 May 2025 23:22:27 GMT)
ソフトウェア開発＆LLMの分野ではAgenticなアプローチが流行っているが「the core of our workflow is the use of LCLMs that receive the entire code repository and directly outputs the solution (DIRECTSOLVE), analogous to standard zero-shot prompting tasks where LMs have demonstrated strong performance.」とlong context対応モデルの性能を信じたアプローチが有効であるとの報告。「We show that LCLMs can drastically simplify agent design on software engineering tasks, outperforming more complex pipelines by 3 – 6%, without any scaffolding or tools.」とのこと。
RAG vs LCでもlong contextの有効性は知られていて、それとも整合的に見える。
- （とはいえRAGが必要な部分はある）

SITE: towards Spatial Intelligence Thorough Evaluation [121.1]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文参考訳（メタデータ） (Thu, 08 May 2025 17:45:44 GMT)
Spatial Intelligenceのベンチマーク。GPT-4oでも人間との差が大きい。（そしてInternVL-2.5-8Bのスコアが意外と高い）
プロジェクトサイトはSITE: towards Spatial Intelligence Thorough Evaluation