コンテンツへスキップ
- Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [22.8]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。 すべてのアプリケーションに対して銀の弾丸が存在することはあり得ない。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 13:04:18 GMT)- 自然言語処理の基礎となるTokenizeの歴史が書かれたサーベイ(?)結論は銀の弾丸はないので応用領域ごとに考えるべきというものだが、歴史が非常に参考になる。
- 特に日本語では自然言語処理には形態素解析が重要になることが多く、目的に応じて手法(アプローチ)が異なるのは納得感がある。
- Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 17:05:11 GMT)
- MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。 マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 06:48:31 GMT)