ArgSciChat: 学術論文を対象とした議論対話データセット

  • ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers [61.8]
    学術論文のドメインエキスパートとして科学者間の対話を収集する新しい枠組みを導入する。 我々のフレームワークは、科学者が論文を対話の根拠として提示し、論文のタイトルを気に入った対話に参加することを可能にする。新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。
    論文  参考訳(メタデータ)   (Mon, 14 Feb 2022 13:27:19 GMT)

対話システムにおける社会的バイアスとCDAIL-BIAS DATASET 

  • Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
    本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。 まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。 中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
    論文  参考訳(メタデータ)   (Wed, 16 Feb 2022 11:59:29 GMT)
    • 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット(中国版)を作成、ベースラインを提供。
    • データセットは今後公開予定とのこと。

DialogLM: 長い対話を対象とした事前学習モデル

  • DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization [19.9]
    本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。 長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。 我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
    論文  参考訳(メタデータ)   (Mon, 6 Sep 2021 13:55:03 GMT)
    • 数千語以上と長い対話に対する言語モデルの提案。HAT-BARTやLongformerより優れた結果を出したとのこと。

MMChat: Multi-Modal Chat Dataset

  • MMChat: Multi-Modal Chat Dataset on Social Media [8.9]
    MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。 画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
    論文  参考訳(メタデータ)   (Mon, 16 Aug 2021 15:27:49 GMT)
    • マルチモーダルな対話データセット。120K対話、200K画像と大規模。
    • 「コンテンツに対するURLだけが、ダウンロードスクリプトとともにリリースされる」「ユーザーは、学術的な目的以外にMMCHATを乱用しないことを約束する保証状に署名する必要がある」とのことで簡単にダウンロードできるデータでは無いよう。

LERG( local explanation of response generation): 対話応答の説明

  • Local Explanation of Dialogue Response Generation [77.7]
    反応生成の局所的説明(LERG)は、生成モデルの推論過程に関する洞察を得るために提案される。 LERGは、シーケンス予測を人間の応答の不確実性推定とみなし、入力を摂動させ、人間の応答に対する確実性の変化を計算することによって説明を作成する。 提案手法は, 提案手法を改良し, 提案手法の4.4~12.8%を改良した。
    論文  参考訳(メタデータ)   (Fri, 11 Jun 2021 17:58:36 GMT)
    • テキスト生成における説明に関する報告。分類モデルに対する説明が流行っている割に生成タスクに対する説明の研究が少ないというのはその通りという印象。