Debate Helps Weak-to-Strong Generalization

  • Debate Helps Weak-to-Strong Generalization [68.7]
    我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。 議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 05:36:13 GMT)
  • 「Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision.」という話で興味深いが、「humans will only be able to weakly supervise superhuman models」という危機感が時期尚早でもなさそうなのが・・・。

Weak-to-Strong Extrapolation Expedites Alignment

  • Weak-to-Strong Extrapolation Expedites Alignment [135.1]
    人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 17:39:50 GMT)
  • 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
  • リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

Weak-to-Strong Jailbreaking on Large Language Models 

  • Weak-to-Strong Jailbreaking on Large Language Models [96.5]
    Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 18:48:37 GMT)
  • 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。下記のように通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
  • リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)
  • Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.2]
    超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。 弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 14 Dec 2023 23:07:33 GMT)