2021年10月6日 – arXiv最新論文の紹介

事前学習の制度改善と下流タスクの精度の関係

Exploring the Limits of Large Scale Pre-training [34.2]
大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 14:49:00 GMT)
- 事前学習と下流タスクの精度に関する検証。
- 上流の精度を高めていくと下流タスクの性能は飽和する、というのは直感に沿っている。一方で「全ての下流タスクでうまく機能する事前訓練済みのチェックポイントは見つけられない」という指摘はそうであろうと思いつつも若干ショックではある。

TLDR9+とTLDRHQ: 大規模要約データセット

TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
論文参考訳（メタデータ） (Mon, 4 Oct 2021 02:40:55 GMT)
- Redditから取得された要約用大規模データセット。クオリティの高いデータを集めたTLDRHQでも1.67Mと規模が大きい。
- リポジトリはhttps://github.com/sajastu/reddit_collector