What Limits LLM-based Human Simulation: LLMs or Our Design?

  • What Limits LLM-based Human Simulation: LLMs or Our Design? [43.5]
    我々は, LLMに基づく人間シミュレーションの進展には, LLM固有の制約とシミュレーションフレームワークの設計課題の両方に対処する必要があると論じている。 この分野でのさらなる研究を支援するため、我々はLLMに基づく人体シミュレーションリソースのキュレートされたコレクションを提供する。
    論文  参考訳(メタデータ)   (Wed, 15 Jan 2025 04:59:49 GMT)
  • 「LLM-based human simulation」の課題分析、整理。「Compared to tasks in NLP or CV, LLM-based human simulations present a much greater complexity」はそうだろうと思う。
  • リポジトリはGitHub – Persdre/llm-human-simulation: Collection of papers related to llm human simulation

Scaling Synthetic Data Creation with 1,000,000,000 Personas

  • Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5]
    私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。 ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 17:59:01 GMT)
  • 多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。
  • リポジトリはGitHub – tencent-ailab/persona-hub