RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing

  • RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]
    RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。 本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
    論文  参考訳(メタデータ)   (Sun, 27 Jul 2025 16:49:47 GMT)
  • 「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。
  • 英語、中国語ともQWEN2.5-MAXが高スコア。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です