ChatGPTの評価（NLPベンチマーク、失敗事例、エッセイ）

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題（Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp)）かもしれない。にしても低すぎという感覚はある…

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

A Categorical Archive of ChatGPT Failures [47.6]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 10:04:18 GMT)

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル