English benchmark for stress-testing machine ToM

  • FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.6]
    現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。 本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
    論文  参考訳(メタデータ)   (Wed, 25 Oct 2023 06:46:42 GMT)
  • Theory of MindのベンチマークFANToMに関する論文。どうでもよいが、English benchmark for stress-testing machine ToM という略称の作り方は無理筋なのでは・・・
  • 「We show that FANTOM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chainof-thought reasoning or fine-tuning.」とのことで難しいベンチマークとのこと。「We do not believe that current LLMs possess an actual ToM.」という注釈も興味深い。LLMのスコアは人間のスコアよりも著しく悪く、プロジェクトサイトでは「LLMs do not have a coherent theory of mind」と書かれている。
  • 社会的・倫理的考察では「While the concept of ToM attempts to capture the ability to attribute mental states to oneself and others (Premack and Woodruff, 1978), it is important to clarify that AI models do not possess subjective consciousness or true understanding of intentions, beliefs, or desires. Our experiment results also demonstrate that current large language models do not exhibit any coherent ToM reasoning; instead, they primarily rely on word correlations.」とのことで、単語の相関関係のみで何かがあるように見えているだけなのでは?というのが一番ありそう。(人間はどうなんだ?という話もあり、議論が発散していきそうな領域でもある)
  • プロジェクトサイトはFANToM: A New Benchmark for Machine ToM in Interactions (hyunw.kim)

Theory of Mind May Have Spontaneously Emerged in Large Language Models

  • Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
    心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。 これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
    論文  参考訳(メタデータ)   (Sat, 4 Feb 2023 03:50:01 GMT)
  • 人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
  • 近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。