How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation

  • How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.7]
    本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。 総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
    論文  参考訳(メタデータ)   (Thu, 20 Feb 2025 15:29:32 GMT)
  • 人のデジタルツインを構築できるのであれば可能なはずの連続的行動の予測に関するベンチマーク。「BEHAVIORCHAIN instance is composed of four key components: a persona profile p, a historical narrative h, a behavior chain B = {b1,b2,…,bn} of the specific persona, and the contextual setting for each behavior C = {c1,c2,…,cn}.」というデータセットで「BEHAVIORCHAIN comprises 1,001 high-quality, persona-based behavior chains, each containing 10–20 context-behavior nodes, automatically extracted from fiction and biographical literature.」とのこと。GPT-4oでも解くのが難しいタスクになっているようだがLlamaの性能が意外と高い。Leakの影響は気になるが面白いタスク。
  • リポジトリはGitHub – O-L1RU1/BehaviorChain


メールアドレスが公開されることはありません。 が付いている欄は必須項目です