GPT-4とGPT-3.5の信頼性

  • DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
    本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 17:24:23 GMT)
  • GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は(jailbreakingされた場合も)より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
  • プロジェクトサイトはDecodingTrust Benchmark

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です