Named Entity Recognition – arXiv最新論文の紹介

An Empirical Study on Finding Spans

An Empirical Study on Finding Spans [31.4]
エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 08:15:48 GMT)
- Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク（典型的には下記）に関するサーベイ
- 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

Number Entity Recognition [65.8]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。通常、ほとんどのNLPタスクでは数値は明確に説明されていないが、NLPモデルで既に示されている数値は根底にある。本研究では,最先端nlpモデルの潜在能力を活用し,関連するタスクにおける性能向上能力の伝達を試みる。提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクやジョイント埋め込みを用いた質問応答,BERTとRoBERTaのベースライン分類よりも優れている。
論文参考訳（メタデータ） (Sat, 7 May 2022 05:22:43 GMT)
- 数字に対するNER。実用的には重要な技術で欲しい状況も多数経験している。
- データセットを公開するようだが現時点ではリンクがない（？）

QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query Attribute Value Extraction [57.6]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。 NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。 AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 19 Aug 2021 03:24:23 GMT)
- 検索クエリにおいて「mk tote for womans」を「mk:ブランド名 tote:商品タイプ for womans:検索者」と認識したうえで「mk:Michael Kors 、tote: handbagカテゴリ、womans:women（スペルミス修正）」と標準的な検索ワードに正規化する問題に取り組んだ論文。
- 「人がアノテーションした少数だが高品質なデータ」と「検索クエリ＋その後のユーザのクリックから作成したノイジーだが大量のデータ」を組みあわせて使用し、DistilBERT（multilingualのものをDistilmBERT と表記？）ベースのモデルを用いている。