Debate Helps Weak-to-Strong Generalization

  • Debate Helps Weak-to-Strong Generalization [68.7]
    我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 05:36:13 GMT)
  • 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です