コンテンツへスキップ
- Anyprefer: An Agentic Framework for Preference Data Synthesis [62.4]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。 審査員モデルの応答を正確に評価するために、外部ツールが導入される。 合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (Sun, 27 Apr 2025 15:21:59 GMT)
- 「To address the challenges of synthesizing high-quality preference data, we propose an automatic framework called Anyprefer, which models the preference data synthesis process as a two-player cooperative Markov game.」というAgenticなデータ合成フレームワークの提案。
- DeepCritic: Deliberate Critique with Large Language Models [77.6]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (Thu, 01 May 2025 17:03:17 GMT)
- Deepな批評を行うモデルの提案。「In Stage 1, we first utilize Qwen2.5-72B-Instruct to generate an initial step-wise critique for each step in the solution, followed by an in-depth critique of the initial critique.」、「In Stage 2, we perform RL to the SFT model on either existing human-annotated data or auto-labeled data via Monte Carlo sampling-based correctness estimation, to further stimulate the critique ability of the critic.」の2ステージ構成で構築。Criticモデルは他のモデル出力の修正にも有効なことが知られているが「our 7B critique model is also capable of supervising and correcting the outputs of a 72B generator, demonstrating a potential of weak-to-strong supervision」は興味深い。
- リポジトリはGitHub – RUCBM/DeepCritic: Official repository for paper “DeepCritic: Deliberate Critique with Large Language Models”
- Scaling Laws of Synthetic Data for Language Models [132.7]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:12 GMT)
- 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
- プロジェクトサイトはAdvancing AI for Humanity。
- Measuring Diversity in Synthetic Datasets [59.5]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのための合成データセットを生成するために広く採用されている。 これらの合成データセットの多様性を正確に測定する – 堅牢なモデルのパフォーマンスに不可欠な側面は、大きな課題である。 分類の観点から,合成データセットの多様性を測定する新しい手法であるDCScoreを紹介する。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 15:46:34 GMT)
- 合成データの多様性を評価する手法の提案、「the difference between samples can be measured through a n-classification task, where evaluating n sample datasets involves n n-classification tasks, with each sample corresponding to a distinct category.」という分類モデルを用いるアプローチ。合成データ活用が広がり、DeepSeek V3/R1で加速しそうな中、結論にある「we hope our work encourages future research to pay more attention to the diversity of synthetic datasets」はその通りだと思う。
- リポジトリはGitHub – BlueWhaleLab/DCScore
- DeepThink: Aligning Language Models with Domain-Specific User Intents [25.5]
本研究では、高品質な命令を生成するためのDeepThinkと呼ばれる新しいフレームワークを提案する。 DeepThinkはまず、いくつかのシード質問を生成して、実際のユーザ質問を模倣し、会話をシミュレートして、隠されたユーザニーズを明らかにし、会話のコンテキストによって回答を洗練する。 実験により、DeepThinkは広告ドメイン内の実際のユーザテストセット上でのGPT-4-turbo+RAGベースのアシスタントと比較して平均パフォーマンスが7.92%向上していることが示された。
論文 参考訳(メタデータ) (Sat, 08 Feb 2025 09:04:16 GMT)
- 「: data synthesis based on conversations, data refinement based on conversations, and supervised fine-tuning (SFT) enhanced with retrieval, DeepThink addresses the critical challenge of adapting LLM to understand and meet hidden user needs in vertical domains.」というデータ合成フレームワーク+αの提案と有効性検証。
- ユーザの隠れたニーズに対応するためLLMの内部知識が有効という解釈だろうか。ありそうな気はするのと、大規模に行うAgentSocietyのようなことが現実的なら様々な分野で活用できそう。(悪用も怖い)
- Wizard of Shopping: Target-Oriented E-commerce Dialogue Generation with Decision Tree Branching [39.5]
会話型商品検索(CPS)の目的は、インテリジェントなチャットベースのショッピングアシスタントを開発することである。 本稿では,大規模言語モデル(LLM)を利用して,現実的で自然な会話を生成する新しい手法TRACERを提案する。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 00:27:13 GMT)
- 「We leverage decision tree to explore the vast product search space, and construct a dialogue plan that minimizes the number of search steps required to retrieve a relevant product.」という会話生成手法の提案
- 直接生成せずに木構造を介すというアプローチはCondor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement – arXiv最新論文の紹介に近いのだろうか。
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [70.0]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。 本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 17:13:03 GMT)
- LLM-as-a-jedgeを使用するときの潜在的なLeakの可能性について指摘した論文。同じモデル、派生モデル、同じファミリーのモデルでバイアスがどの程度か検証。「The results of our main experiment, measured using the proposed preference leakage score, reveal a clear bias in each judge toward its respective student model.」と今までも同じモデルの出力を好むような指摘はあったが、それを裏付ける結果となっている。「We also observe that this bias is more pronounced in comparable model pairs and larger student models.」の大きなモデルで問題が大きいというのも興味深い。
- リポジトリはGitHub – David-Li0406/Preference-Leakage
- Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 02:21:59 GMT)
- Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。
- Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement [41.9]
本研究では,ワールドナレッジツリーと自己回帰リファインメントを組み込んだ2段階合成データ生成フレームワークであるCondorを導入し,高品質なSFTデータを大規模に生成する。 実験結果から,20Kコンドル生成サンプルのみを微調整したベースモデルでは,本モデルよりも優れた性能が得られた。
論文 参考訳(メタデータ) (Tue, 21 Jan 2025 16:44:12 GMT)
- SFTのための合成データ構築手法の提案、World Knowledge Treeを用いるアプローチ。圧縮された知識を解凍、わかりやすく言葉にして学習させている感があって面白い。
- リポジトリはGitHub – InternLM/Condor