Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs [75.6]
我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。 textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
論文参考訳（メタデータ） (Wed, 25 Mar 2026 16:50:56 GMT)
「We show that an autoresearch-style pipeline powered by Claude Code discovers novel white-box adversarial attack algorithms that significantly outperform all existing methods in jailbreaking and prompt injection evaluations.」とのこと。。。claudini/.claude/skills/claudini/SKILL.md at main · romovpa/claudini · GitHubのようなSKILLベースというのも今風（そして怖い）。
Daily Report 2026-03-25自動作成レポート：Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
リポジトリはGitHub – romovpa/claudini: Autoresearch for LLM adversarial attacks · GitHub

コメントを残す

コメントを残す コメントをキャンセル