Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs
Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4] 本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。 論文参考訳(メタデータ) (Tue, 06 Jan 2026 11:20:38 GMT)
AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。