Anyprefer: An Agentic Framework for Preference Data Synthesis
Anyprefer: An Agentic Framework for Preference Data Synthesis [62.4] ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。 審査員モデルの応答を正確に評価するために、外部ツールが導入される。 合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。 論文参考訳(メタデータ) (Sun, 27 Apr 2025 15:21:59 GMT)
「To address the challenges of synthesizing high-quality preference data, we propose an automatic framework called Anyprefer, which models the preference data synthesis process as a two-player cooperative Markov game.」というAgenticなデータ合成フレームワークの提案。