Whose Language Counts as High Quality?

  • Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
    より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。  フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 26 Jan 2022 18:46:26 GMT)
    • テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた(立場の強い人が書いた)テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
    • fugumtのフィルタリングルールでもドメイン名(第二レベルドメインなど)を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
    • リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です