- Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs [75.6]
我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。 textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
論文 参考訳(メタデータ) (Wed, 25 Mar 2026 16:50:56 GMT) - 「We show that an autoresearch-style pipeline powered by Claude Code discovers novel white-box adversarial attack algorithms that significantly outperform all existing methods in jailbreaking and prompt injection evaluations.」とのこと。。。claudini/.claude/skills/claudini/SKILL.md at main · romovpa/claudini · GitHubのようなSKILLベースというのも今風(そして怖い)。
- Daily Report 2026-03-25自動作成レポート:Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
- リポジトリはGitHub – romovpa/claudini: Autoresearch for LLM adversarial attacks · GitHub