2022年2月7日 – arXiv最新論文の紹介

WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (Tue, 1 Feb 2022 04:44:02 GMT)
- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 02:26:40 GMT)
- w2v-BERT＋SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。

日: 2022年2月7日