2021年11月30日 – arXiv最新論文の紹介

Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 24 Nov 2021 06:18:32 GMT)
- 近しいデータ（鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど）をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット（サブセット）を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
  - 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。

TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 14:13:51 GMT)
- Customer Support on Twitter | Kaggleをベースに人間によって作成された抽出/抽象型両形式の要約データセット。データ量は1100対話、3056抽出型要約、3327抽象型要約。
- リポジトリはGitHub – guyfe/Tweetsumm: A dataset focused on summarization of dialogs, which represents the rich domain of Twitter customer care conversations、ライセンスはCommunity Data License Agreement – Sharing, Version 1.0 – CDLAとのこと。

日: 2021年11月30日