SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6] 人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。 論文参考訳(メタデータ) (Wed, 18 Oct 2023 02:27:01 GMT)
様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標(目標の達成度合い)における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。