2023年7月10日 – arXiv最新論文の紹介

Jailbroken: How Does LLM Safety Training Fail? [92.9]
ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。このような攻撃がなぜ成功し、どのように発生できるかを考察する。障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文参考訳（メタデータ） (Wed, 5 Jul 2023 17:58:10 GMT)
LLM（のAPIなどのサービス）に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。

Lost in the Middle: How Language Models Use Long Contexts [91.0]
入力コンテキスト内の関連情報を識別する必要がある2つのタスクのパフォーマンスを解析する。入力コンテキストの開始時や終了時に関連情報が生じた場合、パフォーマンスが最も高いことが分かっています。明示的な長期コンテキストモデルであっても、入力コンテキストが長くなるにつれて、パフォーマンスは大幅に低下する。
論文参考訳（メタデータ） (Thu, 6 Jul 2023 17:54:11 GMT)
長いコンテキストを入れた時、前半と後半に関連する情報がある方が回答性能が高く、中間にある場合は性能が低くなるという指摘。claude-1.3, claude-1.3-100k, gpt-3.5-turbo-0613, gpt-3.5-turbo-16k-0613, mpt-30b-instruct, longchat-13b-16kと多種類のLLMやAPIで同傾向のようで、重要な情報や命令はPrompt前後に書くと良いというなんとなくの知見を裏付けるように思う。
リポジトリはGitHub – nelson-liu/lost-in-the-middle: Code and data for “Lost in the Middle: How Language Models Use Long Contexts”

日: 2023年7月10日