Evaluating Cultural and Social Awareness of LLM Web Agents
Evaluating Cultural and Social Awareness of LLM Web Agents [113.5] CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。 論文参考訳(メタデータ) (Wed, 30 Oct 2024 17:35:44 GMT)
「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。