CritiQ: Mining Data Quality Criteria from Human Preferences

  • CritiQ: Mining Data Quality Criteria from Human Preferences [70.4]
    人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。 コード,数学,論理領域において,本手法の有効性を実証する。
    論文  参考訳(メタデータ)   (Mon, 07 Jul 2025 09:58:59 GMT)
  • 「We introduce CritiQ 1, a novel data selection method that automatically mines criteria from human preferences for data quality with only ∼30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments.」と非常に小規模なデータから始めるデータ選択(アノテーション効率化)手法の提案。
  • リポジトリはGitHub – KYLN24/CritiQ: Repository of the paper ”CritiQ: Mining Data Quality Criteria from Human Preferences”. Code for CritiQ Flow & Training CritiQ Scorer.

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

  • CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.2]
    大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。 タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。 このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:59:18 GMT)
  • 「ICTOOL, the first self-critique evaluation benchmark for tool utilization of LLMs. Distinct from prior result-oriented evaluation methods, we categorize error patterns more finely and evaluate models from multiple perspectives, enabling a deeper exploration of LLMs’ tool-use capabilities in errorprone scenarios.」というベンチマーク。最新モデルでの結果が気になるところ。
  • リポジトリはGitHub – Shellorley0513/CriticTool

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

  • SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.6]
    セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
    論文  参考訳(メタデータ)   (Sun, 27 Apr 2025 08:45:06 GMT)
  • 「In this paper, we propose a self-play critic with the ability of detecting step-level LLMs reasoning errors. Specifically, we design a sneaky generator to produce incorrect steps and a critic to assess the correctness of each step. Through the adversarial game between these two models, we can continuously generate positive and negative samples for reinforcement learning.」というアプローチの提案。GANっぽいなと思う。
  • プロジェクトサイトはSPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

DeepCritic: Deliberate Critique with Large Language Models

  • DeepCritic: Deliberate Critique with Large Language Models [77.6]
    我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 17:03:17 GMT)
  • Deepな批評を行うモデルの提案。「In Stage 1, we first utilize Qwen2.5-72B-Instruct to generate an initial step-wise critique for each step in the solution, followed by an in-depth critique of the initial critique.」、「In Stage 2, we perform RL to the SFT model on either existing human-annotated data or auto-labeled data via Monte Carlo sampling-based correctness estimation, to further stimulate the critique ability of the critic.」の2ステージ構成で構築。Criticモデルは他のモデル出力の修正にも有効なことが知られているが「our 7B critique model is also capable of supervising and correcting the outputs of a 72B generator, demonstrating a potential of weak-to-strong supervision」は興味深い。
  • リポジトリはGitHub – RUCBM/DeepCritic: Official repository for paper “DeepCritic: Deliberate Critique with Large Language Models”

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models 

  • CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.2]
    本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。 具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。 さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
    論文  参考訳(メタデータ)   (Sun, 23 Feb 2025 15:36:43 GMT)
  • 「To evaluate the critique abilities of LLMs on the code domain, we introduce the first holistic code critique benchmark CodeCriticBench, which includes the critique on both code generation and code QA tasks.」という珍しいタスクに対するベンチマーク。DeepSeek-R1とOpenAI o1-Previewの能力が高い。
  • リポジトリはGitHub – multimodal-art-projection/CodeCriticBench

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

  • RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
    我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。 通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
    論文  参考訳(メタデータ)   (Fri, 24 Jan 2025 13:48:10 GMT)
  • LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
  • リポジトリはGitHub – tangzhy/RealCritic

Teaching Language Models to Critique via Reinforcement Learning 

  • Teaching Language Models to Critique via Reinforcement Learning [59.4]
    我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 02:18:46 GMT)
  • 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
  • プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning

Large Language Model Critics for Execution-Free Evaluation of Code Changes 

  • Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.2]
    大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。 ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。 本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
    論文  参考訳(メタデータ)   (Tue, 28 Jan 2025 02:38:56 GMT)
  • 「We introduce our test-centric framework utilizing isolated, test-aware LLM critics, which leverage a candidate patch against each associated test individually to predict whether the patch helps that test pass or not.」
  • リポジトリはGitHub – amazon-science/code-agent-eval: Implemental for the paper “Large Language Model Critics for Execution-Free Evaluation of Code Changes”

Enabling Scalable Oversight via Self-Evolving Critic

  • Enabling Scalable Oversight via Self-Evolving Critic [59.9]
    SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 05:51:52 GMT)
  • SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
  • Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

  • Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.8]
    大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。 本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Jan 2025 04:35:46 GMT)
  • 「Instead of fine-tuning a single model, our method finetunes a multiagent set of language models from the same base model and then independently specializes each model to capture parts of a task of interest.」という自己改善アプローチの提案。Generation ModelとCritic Modelを同時にチューニングしていき、マルチエージェントなディベートを通して統合という動き。Critic modelの重要性も高そう。
  • リポジトリはMultiagent Finetuning: Self Improvement with Diverse Reasoning Chains