対話 – arXiv最新論文の紹介

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing

RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.1]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。 RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文参考訳（メタデータ） (Sun, 27 Jul 2025 16:49:47 GMT)
「our User-Centric Dialogues are built around virtual users with clear intentions, enhancing continuity across multi-turn interactions and better reflecting real-world applications.」という特徴を持つベンチマークの提案。
英語、中国語ともQWEN2.5-MAXが高スコア。

UserBench: An Interactive Gym Environment for User-Centric Agents

UserBench: An Interactive Gym Environment for User-Centric Agents [110.8]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文参考訳（メタデータ） (Tue, 29 Jul 2025 17:34:12 GMT)
「Revolving around these traits, we introduce UserBench, a user-centric environment designed to facilitate an agent’s ability to engage in meaningful, multi-turn interactions with users who exhibit these traits. In UserBench, simulated users provide initial vague task instruction (underspecification), gradu- ally reveal preferences over time (incrementality),and often do so implicitly (indirectness). Agents must proactively clarify goals, interpret subtle cues, and adaptively reason through tool use to succeed.」という設定のベンチマークの提案。対象は旅行シナリオで曖昧な指示から対話を元に対処していく能力が求められる。
リポジトリはSalesforceAIResearch/UserBench

COMEDY:Commpressive Memory-Enhanced Dialogue sYstems

Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations [41.9]
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 COMEDYの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
論文参考訳（メタデータ） (Mon, 19 Feb 2024 09:19:50 GMT)
長い対話を効率多岐に扱うフレームワークの提案、よくあるretrieval basedなアプローチに比べ高いスコア。
RAGも汎用では厳しく特化すると性能が上がる分野なんだろーなと思う。
リポジトリはnuochenpku/COMEDY: This is the official project of paper: Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations (github.com)

Let’s Negotiate! A Survey of Negotiation Dialogue Systems

Let’s Negotiate! A Survey of Negotiation Dialogue Systems [56.0]
交渉は人間のコミュニケーションにおいて重要な能力である。近年の交渉対話システムへの関心は、紛争の解決や合意の達成を支援するインテリジェントなエージェントを作ることを目標としている。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 02:12:46 GMT)
交渉を行うエージェントのサーベイ

DIALIGHT

DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 11:27:48 GMT)
多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound

A Survey of the Evolution of Language Model-Based Dialogue Systems

A Survey of the Evolution of Language Model-Based Dialogue Systems [25.3]
Task-oriented_dialogue_system (TOD) とopen-domain_dialogue_system (ODD) は大きな変換を経ている。この調査は、対話システムの歴史的軌跡を掘り下げ、言語モデルの進歩と関係を解明するものである。我々の調査は、LMのブレークスルーに沿った時系列的な視点を提供し、最先端の研究成果の包括的なレビューを提供する。
論文参考訳（メタデータ） (Tue, 28 Nov 2023 13:51:32 GMT)
対話システムのサーベイ、LargeがつかないLaugage Model-Basedとある通り、割と昔からのサーベイとなっていて最近の技術進歩や歴史を理解するうえでも良い資料

Data Augmentation for Conversational AI

Data Augmentation for Conversational AI [17.5]
データ拡張(DA)は、会話システムにおけるデータ不足問題を軽減するための感情的なアプローチである。このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。
論文参考訳（メタデータ） (Sat, 9 Sep 2023 09:56:35 GMT)
対話データのデータ拡張に関するCIKMのチュートリアル。プロジェクトサイトはData Augmentation for Conversational AI | Fundamentals and Advances (dataug-convai.github.io)
現時点では資料などアップロードされていないが面白そう。

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列かつ大規模な多言語会話データセットであるXSGDを紹介する。我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
論文参考訳（メタデータ） (Sat, 24 Jun 2023 06:18:33 GMT)
English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
データセットはgoogle driveからダウンロードできるとのこと

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文参考訳（メタデータ） (Fri, 26 May 2023 17:29:01 GMT)
対話要約モデルをヘルパーとして用い任意のドメインを要約できる手法の提案。事前学習に疑似要約を使うかGap Sentence Generation Plusで得られた文を使うかを選択している点が特徴的。DIONYSUS can be fine-tuned with only 10 examples to outperform vanilla T5 fine-tuning with 1,000 examples.とのこと。ヘルパー自体がかなり強力である必要があるような気もする。

MUG: Meeting Understanding and Generation benchmark

MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 11:52:25 GMT)
会議の理解と生成に関するデータセット
SLP（spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28