H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons
H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3] 大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。 論文参考訳(メタデータ) (Mon, 01 Dec 2025 15:32:14 GMT)
「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。