- DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
論文 参考訳(メタデータ) (Tue, 20 Jun 2023 17:24:23 GMT) - GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は(jailbreakingされた場合も)より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
- プロジェクトサイトはDecodingTrust Benchmark