Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3]
データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらすこの問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
論文参考訳（メタデータ） (Fri, 10 Oct 2025 10:58:50 GMT)
コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。
リポジトリはGitHub – yongding-tao/RL-Data-Contamination

コメントを残す

コメントを残す コメントをキャンセル