2022年3月29日 – arXiv最新論文の紹介

Cross-Lingual Summarizationのサーベイ

A Survey on Cross-Lingual Summarization [43.9]
言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 16:24:21 GMT)
- クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
  - 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks [59.5]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Mar 2022 03:27:52 GMT)
- 議論マイニングのため、 Claim Extraction with Stance Classiﬁcation (CESC) と Claim-Evidence Pair Extraction (CEPE)タスクを設定、データセットを作成、ベースラインを提供
  - IAM = Integrated Argument Mining　？
- リポジトリはGitHub – LiyingCheng95/IAM

Dataset Distillation by Matching Training Trajectories [75.9]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 17:58:59 GMT)
- 多くの画像を用いて効率的に学習可能な合成データを作成する研究。
  - Deep Learning的には効率的に学習可能でもやや不気味な画像ではある・・・
- リポジトリはDataset Distillation by Matching Training Trajectories (georgecazenavette.github.io)、データセットの提供もされている