コンテンツへスキップ
- CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (Tue, 7 Mar 2023 17:52:51 GMT)
- クロスリンガルな要約データセット。英語→中国語。
- 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
- 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
- リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404