CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です