「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。