Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP

  • Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
    キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。 我々は多言語キーフレーズ生成という新しい設定に注意を払っている。 非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
    論文  参考訳(メタデータ)   (Sat, 21 May 2022 00:45:21 GMT)
    • マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
    • 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
    • リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。

MK-DUC-01: マルチドキュメントでのキーフレーズ抽出

  • Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
    文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。 ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
    論文  参考訳(メタデータ)   (Sun, 3 Oct 2021 19:10:28 GMT)
    • 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat(連結したドキュメントでフレーズ抽出)とMerge(各ドキュメントでフレーズ抽出した結果をマージして再処理)で比較している。