- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.7]
Speech-MASSIVEは多言語音声言語理解データセットである。 異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。 本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (Wed, 7 Aug 2024 16:55:28 GMT) - マルチリンガルな音声の言語理解データセット(spoken language understanding (SLU – the task of extracting semantic information from spoken utterances, which typically involves subtasks like intent detection and slot filling))
- リポジトリはGitHub – hlt-mt/Speech-MASSIVE: Speech-MASSIVE is a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus.
- ライセンスはCC-BY-SA-4.0、日本語が入っていないのが残念。。。
タグ: データセット
DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems
- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (Mon, 15 Jul 2024 13:17:42 GMT) - 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
- リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems
Consent in Crisis: The Rapid Decline of the AI Data Commons
- Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (Sat, 20 Jul 2024 16:50:18 GMT) - 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
- リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
- SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。
Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity
- Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:09:54 GMT) - 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
- リポジトリはArboretum (baskargroup.github.io)
Fake News Detection: It’s All in the Data!
- Fake News Detection: It’s All in the Data! [0.1]
調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
論文 参考訳(メタデータ) (Tue, 02 Jul 2024 10:12:06 GMT) - フェイクニュース検出のためのデータセット
- リポジトリはGitHub – fakenewsresearch/dataset
OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction
- OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 07:46:17 GMT) - 複雑な材料特性(光の反射特性や透過特性など)に対する3D reconstructionデータセット
- リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)
CS-Bench
- CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery [26.4]
計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。 CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 18:47:28 GMT) - コンピュータサイエンスに関するベンチマーク、英語と中国語のバイリンガルデータ。英語・中国語ともにGPT-4oのスコアが最も高いが、中国語のデータではERNIE 4が迫るなどリーダーボードも興味深い結果になっている。
- リポジトリはCS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery (csbench.github.io)
MuirBench
- MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:52 GMT) - マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
- リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face
DataComp-LM: In search of the next generation of training sets for language models
- DataComp-LM: In search of the next generation of training sets for language models [193.3]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。 我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (Mon, 17 Jun 2024 17:42:57 GMT) - 言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている(最小トラックは412Mパラメータ、8.2B学習用トークン(元データ469B)、学習用の計算量は2.0e19FLOPs、H100換算で26時間)が、それにしても参加するにも結構な環境が必要そう。。。
- プロジェクトサイトはDataComp
関連するものとして下記論文も参考になる。
- Data-Centric AI in the Age of Large Language Models [51.2]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。 本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。 データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 16:34:07 GMT) - LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。
OmniCorpus、mOSCAR
マルチモーダル、マルチリンガルな巨大データセットが発表されていた。
- OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [114.0]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 17:01:04 GMT) - 「8.6 billion images and 1,696 billion text tokens」という巨大なマルチモーダル・マルチリンガルなデータセット
- リポジトリはGitHub – OpenGVLab/OmniCorpus: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。 さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 00:13:32 GMT) - OSCARプロジェクトによるデータセット。「We mostly filter “not safe for work” (NSFW) content at the document level.」とのこと。
- リポジトリはmOSCAR – OSCAR Documentation (oscar-project.github.io)