RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文参考訳（メタデータ） (Sun, 27 Jul 2025 16:49:47 GMT)
「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。
英語、中国語ともQWEN2.5-MAXが高スコア。

コメントを残す

コメントを残す コメントをキャンセル