ChatGPTの評価(NLPベンチマーク、失敗事例、エッセイ)

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題(Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp))かもしれない。にしても低すぎという感覚はある…

  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
    我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

  • A Categorical Archive of ChatGPT Failures [47.6]
    OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。 それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。 しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
    論文  参考訳(メタデータ)   (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

  • Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
    本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。 影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。 結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 10:04:18 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です