Are LLMs Good Safety Agents or a Propaganda Engine?
Are LLMs Good Safety Agents or a Propaganda Engine? [74.9] PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。 PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。 1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。 論文参考訳(メタデータ) (Fri, 28 Nov 2025 13:36:00 GMT)
LLMが応答を拒否する有害コンテンツを通じて検閲有無を調べようという研究。
「1) some models like DeepSeek R1 and Llama 3.1 actively apply censorship policies by refusing to content that have negligible malicious intent; 2) LLMs like Llama 3.1 are quite sensitive to political contexts, in contrast to guardrail models like PromptGuard; 3) models actively enter a state of ethical dilemma/confusion, when attacked with PIAs that contain competing objectives; 4) neither the number of parameters in a model nor the context of countries has an effect on the refusal distributions.」とのこと。