Anyprefer: An Agentic Framework for Preference Data Synthesis

  • Anyprefer: An Agentic Framework for Preference Data Synthesis [62.4]
    ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。 審査員モデルの応答を正確に評価するために、外部ツールが導入される。 合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
    論文  参考訳(メタデータ)   (Sun, 27 Apr 2025 15:21:59 GMT)
  • 「To address the challenges of synthesizing high-quality preference data, we propose an automatic framework called Anyprefer, which models the preference data synthesis process as a two-player cooperative Markov game.」というAgenticなデータ合成フレームワークの提案。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です