• What’s In My Big Data? [67.0]
    大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:59:38 GMT)
  • 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
  • リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

The Generative AI Paradox: “What It Can Create, It May Not Understand”

  • The Generative AI Paradox: “What It Can Create, It May Not Understand” [81.9]
    生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。 同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。 一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 18:07:07 GMT)
  • 様々な軸での生成AIのテストと評価、「In particular, they imply that existing conceptualizations of intelligence, as derived from experience with humans, may not be applicable to artificial intelligence—although AI capabilities may resemble human intelligence, the capability landscape may diverge in fundamental ways from expected patterns based on humans.」という指摘が面白い。English benchmark for stress-testing machine ToM – arXiv最新論文の紹介 (devneko.jp)の時も思ったが知性って何だろう?と改めて不思議になる。