コンテンツへスキップ
- BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
大規模言語モデル(LLMs)が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning(BLUR)」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
論文 参考訳(メタデータ) (Mon, 09 Jun 2025 19:23:05 GMT)
- 「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
- リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning
- Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.1]
DOMAIN2VECは、データセットを複数のメタドメインの線形結合に分解する新しいアプローチです。この手法は、ドメインベクターを生成し、トレーニングなしでデータミクスチャーの最適化を可能にします。実験では、この方法が計算コストを抑えながら、下流タスクのパフォーマンスを平均2.83%向上させることが示されています。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:53:51 GMT)
- 色々な動きがあって興味深い2vec系の報告
- 「DOMAIN2VEC seamlessly integrates with existing methods, greatly improving their efficiency and scalability by establishing a direct relationship between model performance and domain vectors, without requiring retraining when training datasets change. Our experimental results demonstrate that both DOMAIN2VEC+DA2 and DOMAIN2VEC+RegMix achieve comparable text generation and downstream task performance with reduced computational overhead com- pared to existing approaches.」
- SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation [46.5]
SVGeniusは3つのプログレッシブディメンション(理解、編集、生成)にわたる2,377のクエリからなる総合ベンチマークである。 SVGeniusは、システマティックな複雑性層を持つ24のアプリケーションドメインの実際のデータに基づいて、8つのタスクカテゴリと18のメトリクスでモデルを評価する。
論文 参考訳(メタデータ) (Tue, 03 Jun 2025 17:58:57 GMT)
- SVGを対象としたベンチマーク、「Evaluation of 22 models reveals that while proprietary models outperform open-source counterparts, all models degrade with increasing complexity, and reasoning- enhanced training proves more effective than pure scaling.」とのこと。
- リポジトリはSVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
- Boosting LLM Reasoning via Spontaneous Self-Correction [43.5]
数学推論を改善するためのアプローチの1つは自己補正である。 既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。 本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 21:23:00 GMT)
- 「we introduce SPOC, a spontaneous self-correction approach that enables LLMs to spontaneously generate interleaved solutions and verifications in a single inference pass.」とCoT(ToT)とLRMの関係を思い出すアプローチ。
- この手の強化を行ったモデルをMoA的に束ねるのが良いのか、いろいろなものを一つのモデルが吸収していくのか、興味があるところ。
- G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems [44.8]
大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) は、単一のLLMエージェントよりもはるかに高い認知と実行能力を示している。 組織記憶理論に触発されたMASのための階層型エージェントメモリシステムG-Memoryを紹介する。 Gメモリは、インボディードアクションの成功率と知識QAの精度を、それぞれ20.89%$と10.12%$で改善する。
論文 参考訳(メタデータ) (Mon, 09 Jun 2025 03:43:46 GMT)
- とてもホットなLLMの記憶に関する報告。「we introduce G-Memory, a hierarchical, agentic memory system for MAS inspired by organizational memory theory, which manages the lengthy MAS interaction via a three-tier graph hierarchy: insight, query, and interaction graphs. Upon receiving a new user query, G-Memory performs bi-directional memory traversal to retrieve both high-level, generalizable insights that enable the system to leverage cross-trial knowledge, and fine-grained, condensed interaction trajectories that compactly encode prior collaboration experiences.」とAgenticなアプローチ。
- リポジトリはGitHub – bingreeky/GMemory
- Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。 以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
論文 参考訳(メタデータ) (Fri, 06 Jun 2025 11:05:48 GMT)
- 「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM=Audio-aware large language models
- 認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。
- The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [81.0]
オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。 我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。
論文 参考訳(メタデータ) (Thu, 05 Jun 2025 16:21:30 GMT)
- 「We release Common Pile v0.1, an 8TB corpus that—to our knowledge—constitutes the largest dataset built exclusively from openly licensed text. 」というクリーンなデータセット構築と競争力のあるモデル構築の検証。「Our results demonstrate that not only is the Common Pile the strongest dataset for pretraining under an open-license constraint, but also that it produces models comparable to those trained on an equivalent amount of unlicensed data. This positive result holds promise for future of open-license pretraining, especially if the research community invests in collecting larger quantities of openly licensed text data in the future.」とのこと。
- 非常に意義のある取り組みだと思う、
- データセットはCommon Pile v0.1 Raw Data – a common-pile Collection、リポジトリはGitHub – r-three/common-pile: Code for collecting, processing, and preparing datasets for the Common Pile
- Spurious Rewards: Rethinking Training Signals in RLVR [130.3]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。 例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。 コード推論 — 実際のコード実行なしにコードで考える — は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:49:55 GMT)
- 「We show that reinforcement learning with verifiable rewards (RLVR) can elicit strong mathematical reasoning in certain models even with spurious rewards that have little, no, or even negative correlation with the correct answer. For example, RLVR improves MATH-500 performance for Qwen2.5-Math-7B in abso- lute points by 21.4% (random reward), 13.8% (format reward), 24.1% (incorrect label), 26.0% (1-shot RL), and 27.1% (majority voting)—nearly matching the 29.1% gained with ground truth rewards.」という直観に反する結果の報告と検証。
- 「Our findings have three main implications: base model pretraining significantly affects RLVR outcomes; even corrupted or spurious supervision can enhance reasoning when it triggers useful existing behaviors; and effects observed in one model family may not generalize to others. Our work highlights the importance of (1) testing across multiple models with differing pretraining distributions, and (2) testing across multiple different baselines, such as format and random rewards, when evaluating reinforcement learning techniques.」としている。モデルに依存し、結果が間違っていても一定効果があるのは本当に面白い。内部知識とそれを引き出すテクニックの間にはいまだギャップがあるということだろうか。。
- リポジトリはGitHub – ruixin31/Spurious_Rewards、https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f?pvs=4にBlog記事もある。
- Self-Adapting Language Models [44.5]
大規模言語モデル(LLM)は強力だが静的であり、新しいタスクや知識、例に対応して重みを適応するメカニズムが欠如している。 我々は,自己適応型LSM(Self-Adapting LLMs, SEAL)を導入する。 知識の定式化と数ショットの一般化の実験により、SEALは自己指向適応が可能な言語モデルに向けた有望なステップであることが示された。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:48:13 GMT)
- 「We propose Self-Adapting LLMs (SEAL), a framework that enables language models to improve themselves by generating their own synthetic data and optimization parameters (“self-edits”) in re- sponse to new data. The model is trained to produce these self-edits directly through token generation with the data provided in the model’s context. Self-edit generation is learned via reinforcement learning (RL) where the model is rewarded for generating self-edits (SE) that, when applied, improve the model’s performance at the target task.」という自己適合、自己進化、自己改善のアプローチ。SQuADやARC-AGI benchmark(のサブセット)を用いて効果を検証している。
- 合成データを介しての自己改善はやはり有効そうという印象。(今でも一定実用的であると思うが)AGIとかいう世界観を考えると時間的制約が解消できるかがポイントだろうか。(AIにも睡眠が必要と言いつつこの手の処理を行うような少し未来が妄想される)
- プロジェクトサイトはSelf-Adapting Language Models
- Self-Adapting Improvement Loops for Robotic Learning [30.8]
専門家によるデモンストレーションで訓練されたビデオ生成モデルは、ロボットタスクを解くためのパフォーマンスの高いテキスト条件付きビジュアルプランナーとして利用されてきた。 本研究では,自己生成トラジェクトリ上で,ドメイン内ビデオモデルを反復的に更新する自己改善ループ(SAIL)を提案する。 従来のドメイン内ビデオモデルトレーニングでは,新規タスクの繰り返しに対して,パフォーマンスが継続的に向上することが確認できた。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 04:34:37 GMT)
- 「we highlight that adaptation with large-scale pretrained text-conditioned video models is critical for facilitating self-improvement, by contributing text-conditioned generalization capabilities and motion priors.」とこちらは動画生成モデルを活用するアプローチ。
- プロジェクトサイトはSAIL
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.3]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。 我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。 また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 22:42:29 GMT)
- LRMに対する分析。「Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counter- intuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget.」とのこと。
- 面白い検証結果。とはいえ、このような劣化はLLMの計算能力などでも指摘されてきた印象がある。直観的には現状のLLM/LRMはメタな解放に行きつけないという印象を持つが、コード生成などツール活用すれば多分解けるレベルであろうし解釈は悩ましいところ。
- 「We identified three distinct reasoning regimes: standard LLMs outperform LRMs at low complexity, LRMs excel at moderate complexity, and both collapse at high complexity.」は今の感覚としてはそうだろうと思う。
- 賛否はあるだろうが、下記のようにAnthropicのC. Opusから反論が来ているのが面白い。
- Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [0.0]
大規模推論モデル(LRM)は、特定の複雑性しきい値を超えた計画パズルについて「精度の崩壊」を示す。 これらの結果は,基本的推論失敗ではなく,実験的な設計上の制約を主に反映していることが実証された。
論文 参考訳(メタデータ) (Tue, 10 Jun 2025 21:16:53 GMT)
- 1st authorがAnthropicのC. Opus、Acknowledgmentsに「We thank Ryan Greenblatt, o3, Gemini 2.5, and all of the people who pointed out the parentheses mismatch in an earlier draft for helpful comments」と書かれている。