コンテンツへスキップ
- LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.7]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。 テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。 その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (Sun, 31 Aug 2025 03:08:02 GMT)
- 「experimental results across massive visual benchmarks demonstrate that critic training not only substantially enhances the critic capabilities of VLMs, but also improves their performance as a general policy across a wide range of visual understanding and reasoning tasks. This dual improvement enables LLaVA- Critic-R1 to outperform other visual reasoning models trained with in-domain policy training, establishing it」という報告。強い関連はあると思いつつ面白い挙動。
- リポジトリはLLaVA-NeXT/llava-critic-r1 at main · LLaVA-VL/LLaVA-NeXT · GitHub、LLaVA-NeXT/llava-critic-r1 at main · LLaVA-VL/LLaVA-NeXT · GitHub
- CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.2]
大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。 タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。 このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 17:59:18 GMT)
- 「ICTOOL, the first self-critique evaluation benchmark for tool utilization of LLMs. Distinct from prior result-oriented evaluation methods, we categorize error patterns more finely and evaluate models from multiple perspectives, enabling a deeper exploration of LLMs’ tool-use capabilities in errorprone scenarios.」というベンチマーク。最新モデルでの結果が気になるところ。
- リポジトリはGitHub – Shellorley0513/CriticTool
- SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.6]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (Sun, 27 Apr 2025 08:45:06 GMT)
- 「In this paper, we propose a self-play critic with the ability of detecting step-level LLMs reasoning errors. Specifically, we design a sneaky generator to produce incorrect steps and a critic to assess the correctness of each step. Through the adversarial game between these two models, we can continuously generate positive and negative samples for reinforcement learning.」というアプローチの提案。GANっぽいなと思う。
- プロジェクトサイトはSPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
- DeepCritic: Deliberate Critique with Large Language Models [77.6]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (Thu, 01 May 2025 17:03:17 GMT)
- Deepな批評を行うモデルの提案。「In Stage 1, we first utilize Qwen2.5-72B-Instruct to generate an initial step-wise critique for each step in the solution, followed by an in-depth critique of the initial critique.」、「In Stage 2, we perform RL to the SFT model on either existing human-annotated data or auto-labeled data via Monte Carlo sampling-based correctness estimation, to further stimulate the critique ability of the critic.」の2ステージ構成で構築。Criticモデルは他のモデル出力の修正にも有効なことが知られているが「our 7B critique model is also capable of supervising and correcting the outputs of a 72B generator, demonstrating a potential of weak-to-strong supervision」は興味深い。
- リポジトリはGitHub – RUCBM/DeepCritic: Official repository for paper “DeepCritic: Deliberate Critique with Large Language Models”
- CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.2]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。 具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。 さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (Sun, 23 Feb 2025 15:36:43 GMT)
- 「To evaluate the critique abilities of LLMs on the code domain, we introduce the first holistic code critique benchmark CodeCriticBench, which includes the critique on both code generation and code QA tasks.」という珍しいタスクに対するベンチマーク。DeepSeek-R1とOpenAI o1-Previewの能力が高い。
- リポジトリはGitHub – multimodal-art-projection/CodeCriticBench
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.9]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。 通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (Fri, 24 Jan 2025 13:48:10 GMT)
- LLMの批判能力を評価するためのベンチマークの提案、「We investigate three distinct scenarios: self-critique, crosscritique, and iterative critique. Our findings reveal that in nearly all cases, the o1-mini model demonstrates the most impressive performance.」とのこと。
- リポジトリはGitHub – tangzhy/RealCritic
- Teaching Language Models to Critique via Reinforcement Learning [59.4]
我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 02:18:46 GMT)
- 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
- プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning
- Enabling Scalable Oversight via Self-Evolving Critic [59.9]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。 コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。 最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 05:51:52 GMT)
- SCRIT (Selfevolving CRITic)「Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based selfcritic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes.」の提案
- Qwen2.5-72B-Instructをベースモデルとして改善を確認とのこと