Enabling Scalable Oversight via Self-Evolving Critic

  • Enabling Scalable Oversight via Self-Evolving Critic [59.9]
    SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 05:51:52 GMT)
  • SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
  • Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

  • Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.8]
    大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。 本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 04:35:46 GMT)
  • 「Instead of fine-tuning a single model, our method finetunes a multiagent set of language models from the same base model and then independently specializes each model to capture parts of a task of interest.」という自己改善アプローチの提案。Generation ModelとCritic Modelを同時にチューニングしていき、マルチエージェントなディベートを通して統合という動き。Critic modelの重要性も高そう。
  • リポジトリはMultiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

  • Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction [51.5]
    本稿では,製品属性値抽出タスクに対して,エラーベースのプロンプト書き換えと自己補正という2つの自己補正手法を適用した。 実験の結果、どちらの自己補充技術も、異なるシナリオでモデルの性能に限界的な影響しか与えず、処理コストは大幅に増加することがわかった。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 12:55:27 GMT)
  • 「information extraction tasks such as extracting product attribute values from product descriptions」タスクにおいてSelf-refinementやSelf-correctionの効果が薄く、「Overall, fine-tuning without self-refinement proves to be the most effective and cost-efficient approach for scenarios where attribute values need to be extracted from a large number of product descriptions.」との報告。有効なことも多いテクニックなので、タスクによりけりなのかな、という印象。
  • リポジトリはGitHub – wbsg-uni-mannheim/SelfRefinement4ExtractGPT: Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs

  • Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.2]
    大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。 自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。 我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 08:09:11 GMT)
  • Confidence scoreとCriticの分析、および、自己修正能力を高める手法の提案
  • 「Confidence prompt/ICL example can lead higer CL and lower CS; critique prompt/ICL example can cause lower CL and higher CS.」(Confidence Level (CL) and Critique Score (CS))とトレードオフの関係にあるとのこと。
  • 両者を改善するために「Critique Improvement Tuning (CCT), which can be divided into Confidence Level Improvement Tuning (CLT) and Critique Score Improvement Tuning (CST).」を提案
  • リポジトリはGitHub – Zhe-Young/SelfCorrectDecompose: Code for paper “Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs”

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners 

  • B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [19.0]
    自己改善は、パフォーマンスを向上させる主要な方法として現れています。 本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。 B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 03:58:34 GMT)
  • 「In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model’s ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation).」、についてこれらを監視しバランスをとる手法を提案。
  • リポジトリはGitHub – hkust-nlp/B-STaR

Language Models as Continuous Self-Evolving Data Engineers

  • Language Models as Continuous Self-Evolving Data Engineers [31.9]
    大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。 本稿では, LLM がデータの自動生成, クリーニング, レビュー, 注釈付けにより, 自己学習を可能にする新しいパラダイムを提案する。 我々のアプローチは、LLMが継続的自己進化型データエンジニアとして機能することを示し、トレーニング後のデータ構築プロセスの時間とコストを大幅に削減する。
    論文  参考訳(メタデータ)   (Thu, 19 Dec 2024 18:28:41 GMT)
  • LLMがデータの生成、自己学習を行っていくLanguage Models as Continuous Self-Evolving Data Engineers (LANCE)の提案。「This training paradigm with autonomous data construction not only reduces the reliance on human experts or external models but also ensures that the data aligns with human values and preferences, paving the way for the development of future superintelligent systems that can exceed human capabilities.」と強い主張がされている。
  • 近しい研究は過去にもあるのでこの方針が有効であるのはそうであろうと思うが、限界はあるはずでsuperintelligent systemにつながるかというとかなり疑問ではある。

Self-Improvement in Language Models: The Sharpening Mechanism 

  • Self-Improvement in Language Models: The Sharpening Mechanism [70.9]
    言語モデリングにおける最近の研究は、言語モデルが外部からのフィードバックなしにより高いパフォーマンスを達成するために、言語世代を評価し、洗練する自己改善の可能性を高めている。 我々は、レンズを通して自己改善の能力について、新たな視点を提供する。 言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
    論文  参考訳(メタデータ)   (Mon, 02 Dec 2024 20:24:17 GMT)
  • 「Motivated by the observation that language models are often better at verifying response quality than they are at generating correct responses, we formalize self-improvement as using the model itself as a verifier during post-training in order to “sharpen” the model to one placing large mass on high-quality sequences, thereby amortizing the expensive inference-time computation of generating good sequences.」という研究
  • 最近よく見るキーワードcritic – arXiv最新論文の紹介にも関連する面白い研究

Self-Generated Critiques Boost Reward Modeling for Language Models

  • Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
    Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。 実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 18:28:26 GMT)
  • 「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
  • 自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。(WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち)

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning 

  • Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4]
    Critic-Vはアクター・クライブのパラダイムにインスパイアされたフレームワークで、視覚言語モデルの推論能力を高める。 リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。 評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Wed, 27 Nov 2024 10:28:57 GMT)

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision 

  • Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.4]
    本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。 まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。 テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:11:54 GMT)
  • 「flawed reasoning path construction, critique generation, and data filtering」の3ステージからなるフレームワークAutoMathCritiqueでデータを構築、fine tuningするとともに、「Motivated by the insights of test-time, we introduce the critique model into the actor model’s exploration and learning process, introducing a critique-in-the-loop self-improvement method」を適用して効果を確認。 critique modelの有効性が分かる結果に見える(が、この構築は容易ではないかもしれない)
  • リポジトリはAutoMathCritique