2021年12月23日 – arXiv最新論文の紹介

語彙モデルとTokenizeの歴史

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 13:04:18 GMT)
- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ（？）結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法（アプローチ）が異なるのは納得感がある。

Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 17:05:11 GMT)
- 最近よく見る疎なモデル（Mixtures of Experts）と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは？としている。
- MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
- リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文参考訳（メタデータ） (Thu, 16 Dec 2021 06:48:31 GMT)
- 商品名や概要、レビューなど商品属性を抽出するタスクのデータセット。220万の商品、1257の商品カテゴリ、300万のアノテーションと大規模。ゼロショットを含めベースラインモデルでの検証が行われており、その結果も参考になる。
- リポジトリはGitHub – google-research-datasets/MAVE: The dataset contains 3 million attribute-value annotations across 1257 unique categories on 2.2 million cleaned Amazon product profiles. It is a large, multi-sourced, diverse dataset for product attribute extraction study.