- DynaGuard: A Dynamic Guardrail Model With User-Defined Policies [40.6]
ユーザ定義ポリシーに基づいてテキストを評価する動的ガーディアンモデルを提案する。 私たちのモデルは、ポリシー違反の迅速な検出や、モデルのアウトプットを明確化し正当化する連鎖推論に使用できます。
論文 参考訳(メタデータ) (Tue, 02 Sep 2025 17:57:56 GMT) - 「Guardian models are used to supervise and moderate the outputs of user-facing chatbots, enforcing guardrails and detecting bad behaviors.」というガーディアンモデル(その中でもユーザ入力のポリシーに動的に対応可能なもの)の構築、Qwen3ベースで強力な性能。
- リポジトリはGitHub – montehoover/DynaGuard: Code for “DynaGuard: A Dynamic Guardrail Model With User-Defined Policies.”