Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

  • Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3]
    データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。 本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 10:58:50 GMT)
  • コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。
  • リポジトリはGitHub – yongding-tao/RL-Data-Contamination

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です