Consent in Crisis: The Rapid Decline of the AI Data Commons 

  • Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
    汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
    論文  参考訳(メタデータ)   (Sat, 20 Jul 2024 16:50:18 GMT)
  • 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
  • リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
  • SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

  • Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
    このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:09:54 GMT)
  • 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
  • リポジトリはArboretum (baskargroup.github.io)

Fake News Detection: It’s All in the Data!

  • Fake News Detection: It’s All in the Data! [0.1]
    調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
    論文  参考訳(メタデータ)   (Tue, 02 Jul 2024 10:12:06 GMT)
  • フェイクニュース検出のためのデータセット
  • リポジトリはGitHub – fakenewsresearch/dataset

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction

  • OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
    295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 07:46:17 GMT)
  • 複雑な材料特性(光の反射特性や透過特性など)に対する3D reconstructionデータセット
  • リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)

CS-Bench

  • CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
    計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 18:47:28 GMT)
  • コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
  • リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)

MuirBench

  • MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
    マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:59:52 GMT)
  • マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
  • リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

DataComp-LM: In search of the next generation of training sets for language models

  • DataComp-LM: In search of the next generation of training sets for language models [193.3]
    DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。 我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
    論文  参考訳(メタデータ)   (Mon, 17 Jun 2024 17:42:57 GMT)
  • 言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている(最小トラックは412Mパラメータ、8.2B学習用トークン(元データ469B)、学習用の計算量は2.0e19FLOPs、H100換算で26時間)が、それにしても参加するにも結構な環境が必要そう。。。
  • プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

  • Data-Centric AI in the Age of Large Language Models [51.2]
    本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。 本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。 データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 16:34:07 GMT)
  • LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

OmniCorpus、mOSCAR

マルチモーダル、マルチリンガルな巨大データセットが発表されていた。

  • OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [114.0]
    我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 17:01:04 GMT)
  • 「8.6 billion images and 1,696 billion text tokens」という巨大なマルチモーダル・マルチリンガルなデータセット
  • リポジトリはGitHub – OpenGVLab/OmniCorpus: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
  • mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8]
    ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。 さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 00:13:32 GMT)
  • OSCARプロジェクトによるデータセット。「We mostly filter “not safe for work” (NSFW) content at the document level.」とのこと。
  • リポジトリはmOSCAR – OSCAR Documentation (oscar-project.github.io)

X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions 

  • X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.9]
    大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。 そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 06:45:23 GMT)
  • 下記3段階(リポジトリより)で低リソースな言語用にcross-lingual instructions datasetを作る手法の提案。
    • X-Instruction Generation: Language models learn to generate cross-lingual instructions for multilingual texts using seed data.
    • X-Instruction Refinement: Language models iteratively label and refine cross-lingual instruction samples.
    • X-Instruction Diversification: The final instruction data are sampled from different clusters of embedding from the English instruction to increase the diversity.
  • リポジトリはGitHub – ZNLP/X-Instruction: Official code and data for ACL-2024 paper “X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions”

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

  • Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
    本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
    論文  参考訳(メタデータ)   (Mon, 20 May 2024 07:34:48 GMT)
  • 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
  • リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence