BERTを利用したテキスト分析を通した社会科学の研究

  • Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset [77.3]
    我々は,NLPにおける教師付き機械学習の新たな課題として,社会的連帯という社会科学的概念とその反対である反連帯の概念を導入する。 我々は,複数のアノテータと2つのアノテーションアプローチ(専門家対群衆)を利用して2.3kの英語とドイツ語のつぶやきをアノテーションした。 これらのアノテーションを使って、複数のデータ拡張戦略でBERTモデルをトレーニングし、2019年9月から2020年12月までに27万以上のツイートを自動的にラベル付けし、ヨーロッパの言論が、時間とともにどのように発展していくかに関して評価する。
    論文  参考訳(メタデータ)   (Mon, 2 Aug 2021 17:03:12 GMT)
    • 一部のデータを人の手でアノテーション、BERT等を活用したモデルを訓練し、アノテーション対象外の大量のデータにラベルを付与、その結果を分析するという論文。実務的にもよく用いられる手法であり、有効な分析プロセスである。
    • 専門知識を持つ人とクラウドワーカーの結果を比較するなど、実用するうえで参考になる論文だと思う。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です