コンテンツへスキップ
- FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.6]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。 本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (Wed, 25 Oct 2023 06:46:42 GMT)
- Theory of MindのベンチマークFANToMに関する論文。どうでもよいが、English benchmark for stress-testing machine ToM という略称の作り方は無理筋なのでは・・・
- 「We show that FANTOM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chainof-thought reasoning or fine-tuning.」とのことで難しいベンチマークとのこと。「We do not believe that current LLMs possess an actual ToM.」という注釈も興味深い。LLMのスコアは人間のスコアよりも著しく悪く、プロジェクトサイトでは「LLMs do not have a coherent theory of mind」と書かれている。
- 社会的・倫理的考察では「While the concept of ToM attempts to capture the ability to attribute mental states to oneself and others (Premack and Woodruff, 1978), it is important to clarify that AI models do not possess subjective consciousness or true understanding of intentions, beliefs, or desires. Our experiment results also demonstrate that current large language models do not exhibit any coherent ToM reasoning; instead, they primarily rely on word correlations.」とのことで、単語の相関関係のみで何かがあるように見えているだけなのでは?というのが一番ありそう。(人間はどうなんだ?という話もあり、議論が発散していきそうな領域でもある)
- プロジェクトサイトはFANToM: A New Benchmark for Machine ToM in Interactions (hyunw.kim)
- Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (Thu, 26 Oct 2023 05:01:09 GMT)
- リポジトリはGitHub – FMInference/DejaVu
- Language Models Hallucinate, but May Excel at Fact Verification [95.6]
大規模言語モデル(LLM)はしばしば「幻惑(hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、事実の出力は25%以下である。 これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (Mon, 23 Oct 2023 04:39:01 GMT)
- 様々なモデルや条件でのハルシネーションについて検証した論文。「Surprisingly, FLAN-T511B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT.」という結果。
- 「The overall inferior performance of not using evidence reveals the importance of retrieval.」は個人的な感覚にもあう。
- Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.8]
FinLMEvalは金融言語モデル評価のためのフレームワークである。 本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 11:43:15 GMT)
- 複数の金融分野でのデータセットでBERTなどencoder系モデル+finetuning、LLMを比較、「Our results show that fine-tuning expert encoder-only models generally perform better than the decoder-only LLMs on the financial NLP tasks, and adding in-context demonstrations barely improves the results.」とのこと。前半はそうだろうという結果だが、後半はちょっと不思議。
- SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [110.6]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (Wed, 18 Oct 2023 02:27:01 GMT)
- 様々なシナリオでロールプレイをし、社会的知性を測ることができる環境STOPIAとベンチマークSOTOPIA-EVALの提案。人間との比較でGPT-4は優秀ではあるが、GOAL指標(目標の達成度合い)における大きな差と「It is also worth noting that humans on average produce 16.8 words per turn, while GPT-4 produces 45.5 words per turn, which indicates humans are more efficient in social interactions.」という指摘が興味深い。
- プロジェクトサイトはSotopia