Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文参考訳（メタデータ） (Tue, 15 Jul 2025 16:43:41 GMT)
CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。

コメントを残す

コメントを残す コメントをキャンセル