Boosting LLM Reasoning via Spontaneous Self-Correction

  • Boosting LLM Reasoning via Spontaneous Self-Correction [43.5]
    数学推論を改善するためのアプローチの1つは自己補正である。 既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。 本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
    論文  参考訳(メタデータ)   (Sat, 07 Jun 2025 21:23:00 GMT)
  • 「we introduce SPOC, a spontaneous self-correction approach that enables LLMs to spontaneously generate interleaved solutions and verifications in a single inference pass.」とCoT(ToT)とLRMの関係を思い出すアプローチ。
  • この手の強化を行ったモデルをMoA的に束ねるのが良いのか、いろいろなものを一つのモデルが吸収していくのか、興味があるところ。

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems 

  • G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems [44.8]
    大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) は、単一のLLMエージェントよりもはるかに高い認知と実行能力を示している。 組織記憶理論に触発されたMASのための階層型エージェントメモリシステムG-Memoryを紹介する。 Gメモリは、インボディードアクションの成功率と知識QAの精度を、それぞれ20.89%$と10.12%$で改善する。
    論文  参考訳(メタデータ)   (Mon, 09 Jun 2025 03:43:46 GMT)
  • とてもホットなLLMの記憶に関する報告。「we introduce G-Memory, a hierarchical, agentic memory system for MAS inspired by organizational memory theory, which manages the lengthy MAS interaction via a three-tier graph hierarchy: insight, query, and interaction graphs. Upon receiving a new user query, G-Memory performs bi-directional memory traversal to retrieve both high-level, generalizable insights that enable the system to leverage cross-trial knowledge, and fine-grained, condensed interaction trajectories that compactly encode prior collaboration experiences.」とAgenticなアプローチ。
  • リポジトリはGitHub – bingreeky/GMemory

Audio-Aware Large Language Models as Judges for Speaking Styles 

  • Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
    音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。 以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
    論文  参考訳(メタデータ)   (Fri, 06 Jun 2025 11:05:48 GMT)
  • 「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM=Audio-aware large language models
  • 認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text 

  • The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [81.0]
    オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。 我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。
    論文  参考訳(メタデータ)   (Thu, 05 Jun 2025 16:21:30 GMT)
  • 「We release Common Pile v0.1, an 8TB corpus that—to our knowledge—constitutes the largest dataset built exclusively from openly licensed text. 」というクリーンなデータセット構築と競争力のあるモデル構築の検証。「Our results demonstrate that not only is the Common Pile the strongest dataset for pretraining under an open-license constraint, but also that it produces models comparable to those trained on an equivalent amount of unlicensed data. This positive result holds promise for future of open-license pretraining, especially if the research community invests in collecting larger quantities of openly licensed text data in the future.」とのこと。
  • 非常に意義のある取り組みだと思う、
  • データセットはCommon Pile v0.1 Raw Data – a common-pile Collection、リポジトリはGitHub – r-three/common-pile: Code for collecting, processing, and preparing datasets for the Common Pile