Consent in Crisis: The Rapid Decline of the AI Data Commons 

  • Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
    汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
    論文  参考訳(メタデータ)   (Sat, 20 Jul 2024 16:50:18 GMT)
  • 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
  • リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
  • SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。


メールアドレスが公開されることはありません。 が付いている欄は必須項目です