Self-Taught Self-Correction for Small Language Models

  • Self-Taught Self-Correction for Small Language Models [16.5]
    本研究は,自己生成データのみを用いた反復的微調整により,小言語モデル(SLM)における自己補正を探索する。 複数のアルゴリズム設計選択を組み込んだ自己学習自己補正アルゴリズム(STaSC)を導入する。 質問応答タスクの実験結果から,STaSCは自己補正を効果的に学習し,性能が大幅に向上することが示された。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 17:57:44 GMT)
  • STaRに自己補正を様々組み込んだSelf-Taught Self-Correction (STaSC)の提案。
  • リポジトリはGitHub – VityaVitalich/STASC: [ICLR 2025 SSI-FM] Self-Taught Self-Correction for Small Language Models

START: Self-taught Reasoner with Tools 

  • START: Self-taught Reasoner with Tools [51.4]
    ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。 基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:11:51 GMT)
  • ツール統合型のCoTを行うSTART (Self-Taught Reasoner with Tools)の提案、「Hint-infer: code/math data is processed by QwQ, with responses truncated at predefined terminators. Context-aware hints from a Hint-Library are injected at truncation points (including endpoints), and QwQ resumes inference using a code interpreter for Python execution feedback.」と「b) Hint-RFT: Hint-infer outputs undergo rule-based scoring, filtering, and content modification to create Dseed .」の2つがキーポイント。ルール・テンプレートをうまく統合していっている印象で、この手の工夫は色々あり得そう。

Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

  • Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.9]
    Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。 既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。 本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 04:50:43 GMT)
  • RAGを対象とした評価手法、「 Judge-Consistency (ConsJudge), a method that enhances LLM-based judgment models to generate more accurate evaluations for RAG models in a self-improvement framework.」の提案。
  • リポジトリはGitHub – OpenBMB/ConsJudge

Self-rewarding correction for mathematical reasoning 

  • Self-rewarding correction for mathematical reasoning [19.5]
    我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。 本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 23:01:16 GMT)
  • 「self-rewarding reasoning framework for LLMs, which integrates the generator and reward model into a single LLM, enabling autonomous reasoning, evaluation, and correction.」、「self-correction in mathematical reasoning and propose a two-stage framework that relies only on self-generated data.」の提案。
  • リポジトリはGitHub – RLHFlow/Self-rewarding-reasoning-LLM: Recipes to train the self-rewarding reasoning LLMs.

The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? 

  • The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.6]
    本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。 数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 05:37:08 GMT)
  • 「CRESCENT as a simple yet effective framework – leveraging techniques of bait prompting, diversification, and consensus enhancement – for exploring the self-improvement problem of LLMs.」の提案、CoTなどに比べても高い性能を発揮とのこと。
  • 何らかの情報が増えているわけではないのでTTCにパワーを使っている効果が出ているという解釈で良いのだろうか。

RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles 

  • RECALL: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles [18.1]
    自己参照因果サイクル(RECALL)の概念を紹介する。 これにより、一方向因果関係の制限を回避できる。 RECALLは、私たちがサイクルトークンとして指定したものによって駆動されています。
    論文  参考訳(メタデータ)   (Thu, 23 Jan 2025 09:14:07 GMT)
  • self-referencing causal cycles、RECALL 「a mechanism that enables large language models (LLMs) to bypass the limitations of unidirectional causality, which underlies a phenomenon known as the reversal curse.」の提案。Causal language modelでよくみられるの課題への対応で興味深い。
  • https://github.com/samunaai/remember がリポジトリとのことだが、現状404

Enabling Scalable Oversight via Self-Evolving Critic

  • Enabling Scalable Oversight via Self-Evolving Critic [59.9]
    SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 05:51:52 GMT)
  • SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
  • Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

  • Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.8]
    大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。 本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 04:35:46 GMT)
  • 「Instead of fine-tuning a single model, our method finetunes a multiagent set of language models from the same base model and then independently specializes each model to capture parts of a task of interest.」という自己改善アプローチの提案。Generation ModelとCritic Modelを同時にチューニングしていき、マルチエージェントなディベートを通して統合という動き。Critic modelの重要性も高そう。
  • リポジトリはMultiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

  • Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction [51.5]
    本稿では,製品属性値抽出タスクに対して,エラーベースのプロンプト書き換えと自己補正という2つの自己補正手法を適用した。 実験の結果、どちらの自己補充技術も、異なるシナリオでモデルの性能に限界的な影響しか与えず、処理コストは大幅に増加することがわかった。
    論文  参考訳(メタデータ)   (Thu, 02 Jan 2025 12:55:27 GMT)
  • 「information extraction tasks such as extracting product attribute values from product descriptions」タスクにおいてSelf-refinementやSelf-correctionの効果が薄く、「Overall, fine-tuning without self-refinement proves to be the most effective and cost-efficient approach for scenarios where attribute values need to be extracted from a large number of product descriptions.」との報告。有効なことも多いテクニックなので、タスクによりけりなのかな、という印象。
  • リポジトリはGitHub – wbsg-uni-mannheim/SelfRefinement4ExtractGPT: Automated Self-Refinement and Self-Correction for LLM-based Product Attribute Value Extraction

Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs

  • Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.2]
    大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。 自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。 我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 08:09:11 GMT)
  • Confidence scoreとCriticの分析、および、自己修正能力を高める手法の提案
  • 「Confidence prompt/ICL example can lead higer CL and lower CS; critique prompt/ICL example can cause lower CL and higher CS.」(Confidence Level (CL) and Critique Score (CS))とトレードオフの関係にあるとのこと。
  • 両者を改善するために「Critique Improvement Tuning (CCT), which can be divided into Confidence Level Improvement Tuning (CLT) and Critique Score Improvement Tuning (CST).」を提案
  • リポジトリはGitHub – Zhe-Young/SelfCorrectDecompose: Code for paper “Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs”