Keyphrase – arXiv最新論文の紹介

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。我々は多言語キーフレーズ生成という新しい設定に注意を払っている。非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文参考訳（メタデータ） (Sat, 21 May 2022 00:45:21 GMT)
- マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
- 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
- リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。

Multi-Document Keyphrase Extraction: A Literature Review and the First Dataset [24.9]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文参考訳（メタデータ） (Sun, 3 Oct 2021 19:10:28 GMT)
- 文書からのキーフレーズ抽出は重要なタスクで、複数文書をまとめて評価したい場合も多い。本論文ではDUC-2001をベースにマルチドキュメントなキーフレーズ抽出用データセットを作成、現時点の手法をConcat（連結したドキュメントでフレーズ抽出）とMerge（各ドキュメントでフレーズ抽出した結果をマージして再処理）で比較している。
- リポジトリはhttps://github.com/OriShapira/MkDUC-01。現時点でデータは公開されていないが、有用そうで期待大。

タグ: Keyphrase