Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety 

  • Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
    CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。 我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 16:43:41 GMT)
  • CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です