Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5] 利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。 モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。 論文参考訳(メタデータ) (Wed, 05 Jun 2024 23:23:54 GMT)
強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。