Scaling Synthetic Data Creation with 1,000,000,000 Personas
Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5] 私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。 ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。 論文参考訳(メタデータ) (Fri, 28 Jun 2024 17:59:01 GMT)
多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。