ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments [43.1]
我々は150のマルチターンシナリオを通じて人間とAIの対立を評価するベンチマークであるConflictBenchを紹介した。 ConflictBenchはテキストベースのシミュレーションエンジンと視覚的に接地された世界モデルを統合し,動的条件下でのエージェントの知覚,計画,行動を可能にする。
論文参考訳（メタデータ） (Mon, 09 Mar 2026 06:59:48 GMT)
「we introduce ConflictBench, a benchmark designed to evaluate human–AI conflict through interactive, multi-turn, and multi- modal protocols that better reflect the complex trade-offs agents may face when their goals conflict with human interests.」というベンチマーク。GPT-5、Qwenのスコアが良くこのあたりの対策もされているのだろうか・・・

コメントを残す

コメントを残す コメントをキャンセル