Unnatural Languages Are Not Bugs but Features for LLMs
Unnatural Languages Are Not Bugs but Features for LLMs [92.8] 大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。 我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。 論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:10:17 GMT)
「we study a phenomenon named unnatural languages – strings that deviate from natural language syntax and appear extremely noisy to human readers, yet remain understandable to LLMs.」という研究。Abstractにもある通りJailbreakの起点となったりする重要なもの。
「These findings strongly demonstrate our key findings: unnatural languages are not bugs but features for LLMs.」で「We demonstrate that LLMs process unnatural languages by effectively filtering out irrelevant tokens. Furthermore, LLMs combine relevant tokens from unnatural languages and infer contextual meaning in response to natural version questions.」とのこと。LLMの能力がすごい。