2022年4月25日 – arXiv最新論文の紹介

SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.1]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Apr 2022 11:28:01 GMT)
- 単語をランダムにマスクするのではなく、単純な単語だけをマスクする方針で事前学習をしたBERTが通常のBERTよりテキスト簡略化タスクで有効だったという報告。
- 事前学習の戦略の工夫で最終的な性能が上がるのは直感的にもそうだと思うし実用でも研究でも重要な視点。

OTExtSum: Extractive Text Summarisation with Optimal Transport [45.8]
テキスト要約を最適輸送(OT)問題として初めて定式化した非学習型手法を提案する。提案手法は,最先端の非学習的手法と最近の学習的手法をROUGEメートル法で比較した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 21 Apr 2022 13:25:34 GMT)
- 最適輸送によるテキスト要約。MultinewsやPubmedではUnsupervisedな手法として優れた性能。ただ、CNNDMでは十分な性能になっておらず文書の長さによるものではないかとしている。
- リポジトリはGitHub – peggypytang/OTExtSum: This code is for paper “OTExtSum: Extractive Text Summarisation with Optimal Transport”, Findings of NAACL 2022

日: 2022年4月25日