ChatGPT Agent, Voxtral

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent  – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation 

  • The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation [97.1]
    大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示してきたが、トレーニングデータの記憶も示している。 本稿では,最近の研究成果を整理し,記憶の景観,その影響要因,その検出・緩和方法について考察する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 01:30:46 GMT)
  • 「This investigation explores memorization mechanisms in LLMs, examining contributing factors, detection methodologies, measurement approaches, and mitigation techniques.」というサーベイ

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models

  • Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [90.7]
    我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。 モデル合成アーキテクチャ」という概念の計算的実装を提案する。 我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 18:01:03 GMT)
  • 人間が内心的に作っているモデルを再現しようとする試み。
  • 「We implement an MSA using LMs to parameterize global relevance functions and Probabilistic Programs to construct arbitrary probabilistic models.」として試行「we find that human reasoning is well-captured by our Model Synthesis Architecture, which provides a better match to human judgments than LM-only baselines and model ablations.」とのこと。
    • MSA: Model Synthesis Architecture

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

  • SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
    SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 17:05:17 GMT)
  • パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
  • プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research