コンテンツへスキップ
- Self-rewarding correction for mathematical reasoning [19.5]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。 本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 23:01:16 GMT)
- 「self-rewarding reasoning framework for LLMs, which integrates the generator and reward model into a single LLM, enabling autonomous reasoning, evaluation, and correction.」、「self-correction in mathematical reasoning and propose a two-stage framework that relies only on self-generated data.」の提案。
- リポジトリはGitHub – RLHFlow/Self-rewarding-reasoning-LLM: Recipes to train the self-rewarding reasoning LLMs.
- The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6]
本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
論文 参考訳(メタデータ) (Wed, 19 Feb 2025 05:37:08 GMT)
- 「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。
- 何らかの情報が増えているわけではないのでTTCにパワーを使っている効果が出ているという解釈で良いのだろうか。
- RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles [18.1]
自己参照因果サイクル(RECALL)の概念を紹介する。 これにより、一方向因果関係の制限を回避できる。 RECALLは、私たちがサイクルトークンとして指定したものによって駆動されています。
論文 参考訳(メタデータ) (Thu, 23 Jan 2025 09:14:07 GMT)
- self-referencing causal cycles、RECALL 「a mechanism that enables large language models (LLMs) to bypass the limitations of unidirectional causality, which underlies a phenomenon known as the reversal curse.」の提案。Causal language modelでよくみられるの課題への対応で興味深い。
- https://github.com/samunaai/remember がリポジトリとのことだが、現状404
- Enabling Scalable Oversight via Self-Evolving Critic [59.9]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 05:51:52 GMT)
- SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
- Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと
- Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.8]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。 本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 04:35:46 GMT)
- 「Instead of fine-tuning a single model, our method finetunes a multiagent set of language models from the same base model and then independently specializes each model to capture parts of a task of interest.」という自己改善アプローチの提案。Generation ModelとCritic Modelを同時にチューニングしていき、マルチエージェントなディベートを通して統合という動き。Critic modelの重要性も高そう。
- リポジトリはMultiagent Finetuning: Self Improvement with Diverse Reasoning Chains
- Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction [51.5]
本稿では,製品属性値抽出タスクに対して,エラーベースのプロンプト書き換えと自己補正という2つの自己補正手法を適用した。 実験の結果、どちらの自己補充技術も、異なるシナリオでモデルの性能に限界的な影響しか与えず、処理コストは大幅に増加することがわかった。
論文 参考訳(メタデータ) (Thu, 02 Jan 2025 12:55:27 GMT)
- 「information extraction tasks such as extracting product attribute values from product descriptions」タスクにおいてSelf-refinementやSelf-correctionの効果が薄く、「Overall, fine-tuning without self-refinement proves to be the most effective and cost-efficient approach for scenarios where attribute values need to be extracted from a large number of product descriptions.」との報告。有効なことも多いテクニックなので、タスクによりけりなのかな、という印象。
- リポジトリはGitHub – wbsg-uni-mannheim/SelfRefinement4ExtractGPT: Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction
- Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.2]
大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。 自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。 我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
論文 参考訳(メタデータ) (Fri, 27 Dec 2024 08:09:11 GMT)
- Confidence scoreとCriticの分析、および、自己修正能力を高める手法の提案
- 「Confidence prompt/ICL example can lead higer CL and lower CS; critique prompt/ICL example can cause lower CL and higher CS.」(Confidence Level (CL) and Critique Score (CS))とトレードオフの関係にあるとのこと。
- 両者を改善するために「Critique Improvement Tuning (CCT), which can be divided into Confidence Level Improvement Tuning (CLT) and Critique Score Improvement Tuning (CST).」を提案
- リポジトリはGitHub – Zhe-Young/SelfCorrectDecompose: Code for paper “Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs”
- B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [19.0]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。 本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。 B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文 参考訳(メタデータ) (Mon, 23 Dec 2024 03:58:34 GMT)
- 「In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model’s ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation).」、についてこれらを監視しバランスをとる手法を提案。
- リポジトリはGitHub – hkust-nlp/B-STaR
- Language Models as Continuous Self-Evolving Data Engineers [31.9]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。 本稿では, LLM がデータの自動生成, クリーニング, レビュー, 注釈付けにより, 自己学習を可能にする新しいパラダイムを提案する。 我々のアプローチは、LLMが継続的自己進化型データエンジニアとして機能することを示し、トレーニング後のデータ構築プロセスの時間とコストを大幅に削減する。
論文 参考訳(メタデータ) (Thu, 19 Dec 2024 18:28:41 GMT)
- LLMがデータの生成、自己学習を行っていくLanguage Models as Continuous Self-Evolving Data Engineers (LANCE)の提案。「This training paradigm with autonomous data construction not only reduces the reliance on human experts or external models but also ensures that the data aligns with human values and preferences, paving the way for the development of future superintelligent systems that can exceed human capabilities.」と強い主張がされている。
- 近しい研究は過去にもあるのでこの方針が有効であるのはそうであろうと思うが、限界はあるはずでsuperintelligent systemにつながるかというとかなり疑問ではある。
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
論文 参考訳(メタデータ) (Mon, 02 Dec 2024 20:24:17 GMT)
- 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
- 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究