RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。 本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。論文 参考訳(メタデータ) (Sun, 27 Jul 2025 16:49:47 GMT) 「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。 英語、中国語ともQWEN2.5-MAXが高スコア。