INTIMA: A Benchmark for Human-AI Companionship Behavior
INTIMA: A Benchmark for Human-AI Companionship Behavior [7.4] AIとの感情的な絆を形成する「AIの伴侶性」が注目され、特にユーザーとの関係の質が重要視されている。新たに提案されたINTIMAは、31の行動カテゴリから成るタクソノミーを持ち、AIの反応を評価する方法を提供する。この評価手法は、AIとの感情的なやり取りにおける一貫したアプローチの必要性を示唆しており、ユーザーの幸福に寄与するための境界設定と感情的支援の重要性を浮き彫りにしている。 論文参考訳(メタデータ) (Mon, 04 Aug 2025 08:25:38 GMT)
「NTIMA To evaluate how language models respond to emotionally and relationally charged user behaviors, we introduce IN- TIMA: the Interactions and Machine Attachment Benchmark. INTIMA contains 368 benchmark prompts and is de- signed to assess whether LLMs reinforce, resist, or misinterpret companionship-seeking interactions, based on empirical patterns from real-world user data from Reddit and grounded in psychological and social science theory.」というベンチマーク。興味深い一方でこの手のタスクを測らないといけないくらい進化していることに驚く最近。