2025年7月21日 – arXiv最新論文の紹介

ChatGPT Agent, Voxtral

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている（Voxtral | Mistral AI）。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

Voxtral [103.4]
本稿では,Voxtral MiniとVoxtral Smallの2つのマルチモーダル音声チャットモデルを提案する。 Voxtralは音声とテキストの両方を理解できるように訓練されている。 32Kコンテキストウィンドウにより、モデルは最大40分間の音声ファイルと長時間のマルチターン会話を処理できる。
論文参考訳（メタデータ） (Thu, 17 Jul 2025 16:17:37 GMT)
リポジトリはmistralai/Voxtral-Small-24B-2507 · Hugging Face、mistralai/Voxtral-Mini-3B-2507 · Hugging Face

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation [97.1]
大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示してきたが、トレーニングデータの記憶も示している。本稿では,最近の研究成果を整理し,記憶の景観,その影響要因,その検出・緩和方法について考察する。
論文参考訳（メタデータ） (Tue, 08 Jul 2025 01:30:46 GMT)
「This investigation explores memorization mechanisms in LLMs, examining contributing factors, detection methodologies, measurement approaches, and mitigation techniques.」というサーベイ

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [90.7]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。モデル合成アーキテクチャ」という概念の計算的実装を提案する。我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 18:01:03 GMT)
人間が内心的に作っているモデルを再現しようとする試み。
「We implement an MSA using LMs to parameterize global relevance functions and Probabilistic Programs to construct arbitrary probabilistic models.」として試行「we find that human reasoning is well-captured by our Model Synthesis Architecture, which provides a better match to human judgments than LM-only baselines and model ablations.」とのこと。
- MSA: Model Synthesis Architecture

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 17:05:17 GMT)
パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research [33.8]
AbGenは、科学研究のためのアブレーション研究を設計する際のLLMの能力を評価するために設計された最初のベンチマークである。そこで我々は,一般的な自動評価システムの信頼性を評価するメタ評価ベンチマークAbGen-Evalを開発した。
論文参考訳（メタデータ） (Thu, 17 Jul 2025 17:09:22 GMT)
Ablation Studyを生成できるか、および、Ablation Studyを評価できるかを検証するためのベンチマークの提案。現状のLLMはいずれも厳しい結果。
リポジトリはyale-nlp/AbGen · Datasets at Hugging Face、GitHub – yale-nlp/AbGen: Data and code for the ACL 2025 paper “AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research”

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31