FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.6] 現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。 本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。 論文参考訳(メタデータ) (Wed, 25 Oct 2023 06:46:42 GMT)
Theory of MindのベンチマークFANToMに関する論文。どうでもよいが、English benchmark for stress-testing machine ToM という略称の作り方は無理筋なのでは・・・
「We show that FANTOM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chainof-thought reasoning or fine-tuning.」とのことで難しいベンチマークとのこと。「We do not believe that current LLMs possess an actual ToM.」という注釈も興味深い。LLMのスコアは人間のスコアよりも著しく悪く、プロジェクトサイトでは「LLMs do not have a coherent theory of mind」と書かれている。
社会的・倫理的考察では「While the concept of ToM attempts to capture the ability to attribute mental states to oneself and others (Premack and Woodruff, 1978), it is important to clarify that AI models do not possess subjective consciousness or true understanding of intentions, beliefs, or desires. Our experiment results also demonstrate that current large language models do not exhibit any coherent ToM reasoning; instead, they primarily rely on word correlations.」とのことで、単語の相関関係のみで何かがあるように見えているだけなのでは?というのが一番ありそう。(人間はどうなんだ?という話もあり、議論が発散していきそうな領域でもある)