合成データ活用に関するサーベイ

  • Synthetic Data — what, why and how? [30.4]
    本資料は, 合成データ技術の現状を概観することを目的としている。 この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
    論文  参考訳(メタデータ)   (Fri, 6 May 2022 14:27:45 GMT)
    • 合成データに関するサーベイ、主な観点としてprivate data release 、data de-biasing and fairness、data augmentation for robustnessを挙げ、関連領域(攻撃や防御など)についても記載がある。

ElitePLM: PLMの能力評価

  • ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1]
    本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。 実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
    論文  参考訳(メタデータ)   (Tue, 3 May 2022 14:18:10 GMT)
    • Pretrained Language Modelの詳細評価。PLMといっても事前学習の内容やデータ、モデルサイズなど多種多様でそれがどのような能力を持つか(何に適しているか)参考になる。
    • リポジトリはGitHub – RUCAIBox/ElitePLM