Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3] データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。 本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。 論文参考訳(メタデータ) (Fri, 10 Oct 2025 10:58:50 GMT)
コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。