ChatGPTの評価(NLPベンチマーク、失敗事例、エッセイ)

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題(Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp))かもしれない。にしても低すぎという感覚はある…

  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
    我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

  • A Categorical Archive of ChatGPT Failures [47.6]
    OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。 それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。 しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
    論文  参考訳(メタデータ)   (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

  • Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
    本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。 影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。 結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 10:04:18 GMT)

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models

  • What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models [12.9]
    類似性判定に基づいて,大規模言語モデルと古典的な心理物理学的手法を組み合わせる方法について述べる。 提案手法を6つの知覚領域で検証し,提案した判断が人間のデータと強く相関していることを示す。 我々の研究は、最先端のマシンモデルとよく知られた認知パラダイムを組み合わせることで、認識と言語研究の基本的な問題に新たな光を当てることができることを示す。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 18:32:46 GMT)
  • LLMを用いてPsychophysicalな情報を得ようとする試み。「We found that not only does the extracted data correlate highly with human judgments, but it also recovers well-known psychophysical structures from the literature such as the cyclical and helical organizations of color and pitch.」とあるのはすごく面白い結果ではありつつ、Discussionにも指摘があるように単にそういうことが書かれた記事を復元しているだけじゃないのか?という疑問もある。
  • 何はともあれLLMを色々な分野に応用するというのはとても興味深い。

Theory of Mind May Have Spontaneously Emerged in Large Language Models

  • Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
    心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。 これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
    論文  参考訳(メタデータ)   (Sat, 4 Feb 2023 03:50:01 GMT)
  • 人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
  • 近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。