Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games, How large language models judge and influence human cooperation

  • Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.6]
    大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。 我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。 意外なことに、o1シリーズのようなLRMの推論は、協調にかなり苦労している。
    論文  参考訳(メタデータ)   (Sun, 29 Jun 2025 15:02:47 GMT)
  • 「our findings reveal a surprising pattern: while traditional LLMs demonstrate robust cooperation comparable to human outcomes, reasoning- enhanced models frequently struggle to sustain cooperation.」という興味深い結果。reasoningモデルだからなのか、モデルサイズや学習結果の問題なのかとても興味があるところ。
  • リポジトリはGitHub – davidguzmanp/SanctSim
  • How large language models judge and influence human cooperation [82.1]
    我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。 我々は、善良な相手との協力を評価する際、顕著な合意を守ります。 モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Jun 2025 09:14:42 GMT)
  • LLMが協調的な行動をとるか検証した論文。傾向を分析するのが難しい結果ではあるが「With some exceptions, most LLM families we tested tend to move from IS towards SS as versions and parameter size increases, indicating a shift towards a higher complexity social norm which makes use of more context, specifically assigned reputations. Moreover, different versions of the same family can have vastly distinct social norms, such as Claude 3.5 Haiku [47] and Claude 3.7 Sonnet [48], despite their similar ethical goals [49].」とのこと。(IS, cooperating is good, defection is bad、SS, cooperating is always good, defecting against bad individuals is also good)
  • 「These results highlight an important concern: LLMs are not explicitly designed with a given social norm in mind, instead emerging as a by-product of their training [4]. While these norms may occasionally align with those of humans, they are neither designed to maintain cooperation and minimize disagreement, nor are they co-created with communities from diverse cultures to reflect their norms and needs [3].」というのが実際のところだと思うが、意思決定支援に使うという話は相応にあったりするわけで注意が必要だと思う。

Mercury: Ultra-Fast Language Models Based on Diffusion 

Deep Research API, Gemini CLI, Mistral-Small-3.2-24B, Hunyuan-A13B, OpusLM

様々なニュースがあるが、先週の注目はDeepResearchAPIの登場(Introduction to deep research in the OpenAI API)、Gemini CLIのリリース(Gemini CLI : オープンソース AI エージェント | Google Cloud 公式ブログ)のように思う。LLMやLRMなど基盤モデルを提供するベンダーが応用領域にも進出してくるのは生成AI周りでは特徴的。より付加価値を得ていく動きとしては当然ではあるが、API利用で勝負しているベンダーやスタートアップにとってはつらい展開が続く。

Mistralからはmistralai/Mistral-Small-3.2-24B-Instruct-2506 · Hugging Faceが出ていた。また、Tencentからは80B, 13 ActiveなMoE・ReasoningハイブリッドモデルのHunyuan-A13Bが発表されている(GitHub – Tencent-Hunyuan/Hunyuan-A13B: Tencent Hunyuan A13B (short as Hunyuan-A13B), an innovative and open-source LLM built on a fine-grained MoE architecture.)。

別軸でOpenなSpeechLMも発表されている。オープンな動きにも注目したい。

  • OpusLM: A Family of Open Unified Speech Language Models [56.1]
    OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。 本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
    論文  参考訳(メタデータ)   (Sat, 21 Jun 2025 06:30:59 GMT)
  • Open Unified Speech Language Models でOpusLMs
  • モデルはespnet/OpusLM_7B_Anneal · Hugging Face

Gemini 2.5 Pro, Flash , 2.5 Flash-Lite, MiniMax-M1, Kimi-Dev-72B

Gemini 2.5 Proからpreviewが取れ、2.5 Flash Liteが出る(Gemini Pro – Google DeepMind)など先週も様々なニュースがあった。

高効率なモデルで知られるMiniMaxからはReasoningモデルが出ている。MoonshotからはKimi-Dev-72Bが公開されておりこちらも期待が大きい(GitHub – MoonshotAI/Kimi-Dev: open-source coding LLM for software engineering tasks)。テクニカルレポートは準備中とのこと。

  • MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.7]
    MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。 コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。 MiniMax-M1は大規模強化学習を用いて訓練されている。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 15:08:02 GMT)
  • 効率的なLightning Attentionを活用したモデル。Lightning Attentionの計算量はコンテキスト長に対し線形(ではあるが全体のバランスを考えてのハイブリッド構造)でLRMに向いていそう。加えて最近のモデルで多いMoEを採用している。
  • リポジトリはGitHub – MiniMax-AI/MiniMax-M1: MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model.

Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy 

  • Interpretable LLMs for Credit Risk: A Systematic Review and Taxonomy [0.0]
    大規模言語モデル(LLM)は、財務文書の分析を通じて信用リスクの評価を可能にする。 本稿では、信用リスク推定におけるLSMに基づくアプローチに着目した、最初の体系的レビューと分類について述べる。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 10:24:40 GMT)
  • LLMを使った信用リスク評価のサーベイ

BLUR: A Bi-Level Optimization Approach for LLM Unlearning 

  • BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
    大規模言語モデル(LLMs)が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning(BLUR)」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
    論文  参考訳(メタデータ)   (Mon, 09 Jun 2025 19:23:05 GMT)
  • 「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
  • リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning

Pitfalls in Evaluating Language Model Forecasters

  • Pitfalls in Evaluating Language Model Forecasters [45.4]
    我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
    論文  参考訳(メタデータ)   (Sat, 31 May 2025 21:49:17 GMT)
  • LLMの評価に関する落とし穴をまとめた論文
  • 「We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims.」というまとめだが、評価は本当に難しい。

XToM: Exploring the Multilingual Theory of Mind for Large Language Models 

  • XToM: Exploring the Multilingual Theory of Mind for Large Language Models [58.0]
    LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。 以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
    論文  参考訳(メタデータ)   (Tue, 03 Jun 2025 05:23:25 GMT)
  • 多言語でのLLM比較、「LLMs are equipped with multilingual understanding ability but fail in multi- lingual ToM reasoning tasks.」と結論。深い部分での言語間差異は残っているよう(とはいえ、一昔前に比べて差異は縮小しているようにも見える)
  • リポジトリはGitHub – HKUST-KnowComp/XToM: Data and Code for paper “X-ToM: Exploring the Multilingual Theory of Mind for Large Language Models”

MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models

  • MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models [31.9]
    我々は,大規模言語モデル(LLM)用に設計されたメモリオペレーティングシステムであるMemOSを紹介する。 コアとなるMemCubeは、異種メモリの追跡、融合、マイグレーションを可能にする標準化されたメモリ抽象化である。 MemOSは、強力な制御性、適応性、進化性を備えたメモリ中心の実行フレームワークを確立する。
    論文  参考訳(メタデータ)   (Wed, 28 May 2025 08:27:12 GMT)
  • LLMのためのメモリ管理フレームワークの提案。「Large Language Models (LLMs) have emerged as foundational infrastructure in the pursuit of Artificial General Intelligence (AGI). Despite their remarkable capabilities in language perception and generation, current LLMs fundamentally lack a unified and structured architecture for handling memory.」はその通りで、記憶の実装はLLMの利用を進める上でとても重要
  • 「MemOS provides a unified abstraction and integrated management framework for heterogeneous memory types, including parametric memory, activation memory, and explicit plaintext memory. We propose a standardized memory unit, MemCube, and implement key modules for scheduling, lifecycle management, structured storage, and transparent augmentation.」と良く設計・実装されたシステムに見えるが、このようなアプローチと(最近あまり聞かない)Deepでポン的なモデルに組み込むアプローチのどちらが有望なのか気になる。

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

  • The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.7]
    我々は、オープンソースのより小さな言語モデルの集合的インテリジェンスを効果的に活用する簡単なレシピであるAvengersを紹介します。 10のオープンソースモデル(それぞれ7Bパラメータ)により、Avengersは15のデータセットのうち10でGPT-4.1を上回っている。 特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 10:29:42 GMT)
  • 7B × 10のSLMで商用モデルと競合する性能を達成とのこと。「In this paper, we introduce the Avengers, a simple yet effective framework to unite multiple smaller language models (SLMs) and challenge the dominance of proprietary large models. The core of the Avengers involves straightforward embedding, clustering, scoring, and voting, without requiring neural network training, prompt engineering, or careful architecture-specific model choices.」
  • leakというのが頭によぎらなくはないが、近年の公開モデルの性能は大きく向上していてあり得る結果ではあると思う。
  • リポジトリはGitHub – ZhangYiqun018/Avengers