How Many Instructions Can LLMs Follow at Once? 

  • How Many Instructions Can LLMs Follow at Once? [0.2]
    ビジネスレポート作成タスクのための500のキーワード包含命令の単純なベンチマークであるIFScaleを導入し、命令密度が増大するにつれて、命令追従性能がどのように低下するかを測定する。 我々は、7つの主要プロバイダにわたる20の最先端モデルを評価し、最高のフロンティアモデルでさえ500命令の最大密度で68%の精度しか達成できないことを発見した。 私たちの洞察は、実世界のアプリケーションにおける命令密度プロンプトの設計に役立ち、重要なパフォーマンスとレイテンシのトレードオフを浮き彫りにします。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 17:59:42 GMT)
  • 「We propose IFScale, a benchmark designed to investigate how model performance degrades as instruction density increases.」というベンチマークの提案。「(1) threshold decay—near-perfect performance until a critical density, then rising variance and decreased adherence (reasoning models like o3, gemini-2.5-pro), (2) linear decay (gpt-4.1, claude-sonnet-4), and (3) exponential decay (gpt-4o, llama-4-scout).」とモデルごとに挙動が異なるのが興味深い、
  • リポジトリはIFScale: Instruction Following at Scale

ChatGPT Agent, Voxtral

先週の大きなニュースはChatGPT Agentの登場だった。Deep Research + OpenAI operator + Code Interpreter のようなものでいわゆるGUIエージェント。WebArenaのスコア向上が小さめで、OS Worldの結果が報告されていない点が気になるところ。GTA1: GUI Test-time Scaling Agent  – arXiv最新論文の紹介ではVision部分のチューニングを行っていたが、このような部分に課題があるのだろうか。

Mixtralからはマルチモーダル音声チャットモデルが公開されている(Voxtral | Mistral AI)。高性能かつApache 2.0 licenseでの公開は非常にありがたい。

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation 

  • The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation [97.1]
    大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示してきたが、トレーニングデータの記憶も示している。 本稿では,最近の研究成果を整理し,記憶の景観,その影響要因,その検出・緩和方法について考察する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 01:30:46 GMT)
  • 「This investigation explores memorization mechanisms in LLMs, examining contributing factors, detection methodologies, measurement approaches, and mitigation techniques.」というサーベイ

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models

  • Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [90.7]
    我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。 モデル合成アーキテクチャ」という概念の計算的実装を提案する。 我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 18:01:03 GMT)
  • 人間が内心的に作っているモデルを再現しようとする試み。
  • 「We implement an MSA using LMs to parameterize global relevance functions and Probabilistic Programs to construct arbitrary probabilistic models.」として試行「we find that human reasoning is well-captured by our Model Synthesis Architecture, which provides a better match to human judgments than LM-only baselines and model ablations.」とのこと。
    • MSA: Model Synthesis Architecture

SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

  • SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.7]
    SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。 SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 17:05:17 GMT)
  • パフォーマンス最適化能力を測るベンチマークの提案。Claude-4-sonnet > Gemini-2.5-pro > OpenAI-o3ではあるものの全体的に厳しい結果。
  • プロジェクトサイトはSWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

NeoBabel: A Multilingual Open Tower for Visual Generation

  • NeoBabel: A Multilingual Open Tower for Visual Generation [32.8]
    我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。 英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。 それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Tue, 08 Jul 2025 16:19:45 GMT)
  • 「This paper introduces NeoBabel, a novel multilingual image generation framework that represents the first scalable solution for direct text-to-image synthesis across six languages. Through meticulous curation of high-quality multilingual vision-language datasets and end-to-end training, NeoBabel establishes direct cross-lingual mappings between textual descriptions and visual outputs across all supported languages.」という翻訳を介さない多言語対応画像生成モデルの提案。文化に関わる単語を翻訳するのは困難であり、このようなモデルは重要。
  • リポジトリはNeoBabel: A Multilingual Open Tower for Visual Generation

Robust Multimodal Large Language Models Against Modality Conflict

  • Robust Multimodal Large Language Models Against Modality Conflict [94.1]
    マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。 我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。 モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 11:18:38 GMT)
  • MLLM特有のハルシネーション(モダリティ間の不整合に関連するもの)に対する対策の整理「Multimodal Modality Conflict (MMMC) 」というデータセットも作成し検証。検証の中ではプロンプトエンジニアリング、SFT、強化学習でのハルシネーション軽減を試し「Our results show that the reinforcement learning method achieves the best performance in mitigating the hallucination under modality conflict, while the supervised fine- tuning method shows promising and stable performance.」とのこと。
  • リポジトリはGitHub – zmzhang2000/MMMC: Official repository for Robust Multimodal Large Language Models Against Modality Conflict

Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs 

  • Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.8]
    大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。 彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。 本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 02 Jul 2025 18:27:42 GMT)
  • 「This survey presents a comprehensive review of efficient test-time compute (TTC) strategies, which aim to improve the computational efficiency of LLM reasoning. We introduce a two-tiered taxonomy that distinguishes between L1 controllability—methods that operate under fixed compute budgets—and L2 adaptiveness—methods that dynamically scale inference based on input difficulty or model confidence.」というサーベイ。
  • 商用モデルでのハイブリッドアプローチも流行っていて色々と苦労している部分なんだろうなと思う。
  • Predicting thinking time in Reasoning models [42.6]
    推論モデルは長く隠れた思考の連鎖を生み出します。 ユーザーは、答えを返す前にモデルが推論にどれくらいの時間を費やすかについての洞察がほとんどない。
    論文  参考訳(メタデータ)   (Sun, 29 Jun 2025 15:01:01 GMT)
  • LRMにおける推論時間の予測に関する報告。
  • 「In this paper, we explore methods for online prediction of thinking time in reasoning models. Our experiments demonstrate that current models encode a notion of progress in their internal representations, with an mlp probe achieving 45% accuracy over 10 classes, moreover the errors appear highly local (MAE 1).」

VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots

  • VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [45.0]
    本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。 このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。 我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 15:31:36 GMT)
  • タスク計画の検証のため「In this paper, we propose an architecture for automatically verifying high-level task plans before their execution in simulator or real-world environments. Leveraging Large Language Models (LLMs), our approach consists of two key steps: first, the conversion of natural language instructions into Linear Temporal Logic (LTL), followed by a comprehensive analysis of action sequences.」と形式言語を併用するアプローチの提案。
  • リポジトリはVerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots