- Consistency Analysis of ChatGPT [54.2]
ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。 論理的に一貫した行動に関するChatGPTの信頼性について検討する。
論文 参考訳(メタデータ) (Sat, 11 Mar 2023 01:19:01 GMT)
- ChatGPTの一貫性評価、BECEL: Benchmark for Consistency Evaluation of Language Models (aclanthology.org)を利用
- ChatGPTはnegation consistencyに優れている一方でsymmetric consistencyがいまいちという結果。
- 「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。