Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

  • Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
    ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。 提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 15:46:28 GMT)
  • QAデータを用いたChatGPT(+GPT-3.5)の検証
  • データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
  • 問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insufficient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です