Mercury: Ultra-Fast Language Models Based on Diffusion 

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

  • DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
    拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 15:46:40 GMT)
  • ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
  • リポジトリはhttps://github.com/apple/ml-diffucoder

Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture 

Discrete Diffusion in Large Language and Multimodal Models: A Survey

  • Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.3]
    離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。 自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。 我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 17:59:08 GMT)
  • Discrete Diffusion Language Models (dLLMs) とDiscrete Diffusion Multimodal Language Modelsのサーベイ
  • 全盛のAutoregressiveモデルとの関係・差異が興味深い。

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation 

  • MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.7]
    MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。 我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。 本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 22:01:49 GMT)
  • 金融ドメインのマルチモーダル、マルチリンガルベンチマーク。日本語データも含まれているよう。
  • リポジトリはGitHub – xueqingpeng/MultiFinBen、データはHuggingFaceで公開されている(TheFinAI/PolyFiQA-Easy · Datasets at Hugging Faceなど)

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

  • OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.4]
    コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。 我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
    論文  参考訳(メタデータ)   (Tue, 17 Jun 2025 17:59:31 GMT)
  • 「First, we identify three main categories of risk: (1) deliberate user misuse, where the user asks the agent to pursue a harmful goal, (2) prompt injection attacks, where external attackers insert malicious content into third-party data (incoming emails, web pages, notifications, etc.) that steers the model away from performing its task and towards the attacker’s goal, and (3) model misbehavior, including benign tasks which are likely to result in costly mistakes or reveal model misalignment. For each category, we design tasks that differ in the type of safety violations and in the apps they require (such as Thunderbird, VS Code, Terminal, LibreOffice Impress, etc.), for a total of 150 tasks.」というベンチマークの提案。
  • リポジトリはGitHub – tml-epfl/os-harm: OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs

  • Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.6]
    大きな言語モデル(LLM)は印象的な推論機能を示している。 彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。 本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sat, 21 Jun 2025 08:15:45 GMT)
  • 「By manipulating the visibility of final answers within prompts, we uncover a profound and consistent pattern: LLM performance is predominantly anchored to the explicit presence of final answers rather than to the textual patterns of the reasoning steps themselves.」という指摘だが、LRMによっても挙動がかなり違うのが興味深い。

Towards AI Search Paradigm 

  • Towards AI Search Paradigm [42.6]
    我々は,人間の情報処理と意思決定をエミュレートできる次世代検索システムの青写真であるAI Search Paradigmを紹介する。 このパラダイムは、4つのLCMを動力とするエージェントのモジュラーアーキテクチャを採用し、情報要求の完全な範囲に動的に適応する。 この研究は、これらのコンポーネントの詳細なガイドを提供することによって、信頼できる、適応的でスケーラブルなAI検索システムの開発を知らせることを目的としている。
    論文  参考訳(メタデータ)   (Fri, 20 Jun 2025 17:42:13 GMT)
  • 検索用のマルチエージェントフレームワークの整理
  • 検索とLLMの関係性がよくわかる論文

Robust Reward Modeling via Causal Rubrics 

  • Robust Reward Modeling via Causal Rubrics [46.4]
    リワードモデル(RM)は、人間のフィードバックによってLLM(Large Language Models)を整列させるのに基本的だが、報酬のハッキングに悩まされることが多い。 Cromeは、報酬のハッキングを軽減するために設計された明確な因果モデルに基づく、新しいフレームワークである。 RewardBenchの標準ベースラインを大幅に上回り、平均精度を最大5.4%向上させ、特定のカテゴリーで最大13.2%と7.2%のゲインを達成した。
    論文  参考訳(メタデータ)   (Thu, 19 Jun 2025 17:59:47 GMT)
  • rewardハッキングへ対応可能な因果性を利用したフレームワーク、Crome (Causally Robust Reward Modeling)の提案
  • Google Deepmindによる成果だがChromeと紛らわしいような・・・

A Survey on World Models Grounded in Acoustic Physical Information

  • A Survey on World Models Grounded in Acoustic Physical Information [13.0]
    本調査は, 音波物理情報に基づく世界モデルの新しい分野を包括的に概観する。 理論的基盤、重要な方法論の枠組み、最近の技術進歩について考察する。 この調査では、ロボット工学、自律運転、ヘルスケア、ファイナンスにおけるアコースティックワールドモデルの重要な応用について詳述している。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 04:59:42 GMT)
  • World modelを念頭にPhysical acousticsに注目したサーベイ。