Data-centric AI – ページ 2 – arXiv最新論文の紹介

Data-centric AI: Perspectives and Challenges

Data-centric AI: Perspectives and Challenges [51.7]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。データ開発、評価データ開発、データメンテナンスの3つの一般的なミッションをまとめる。今後の探索を動機付けるためのオープンな課題をリストアップする。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 05:28:59 GMT)
Data-centric AIに関する解説。5ページと短いが、Training Data Development, Evaluation Data Development, Data Maintenaceに分けて概要と動向を解説している。

データ中心の疫学予測のサーベイ

Data-Centric Epidemic Forecasting: A Survey [57.0]
この調査は、様々なデータ駆動の方法論および実践的進歩を掘り下げるものである。疫学的なデータセットと,流行予測に関連する新しいデータストリームを列挙する。また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。
論文参考訳（メタデータ） (Wed, 20 Jul 2022 05:13:18 GMT)
- 疫学的な予測とData-Centricに関するサーベイ。統計的手法、機械学習的手法の違いなども参考になる。引用数373。

BigBIO

BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing [13.3]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。 BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文参考訳（メタデータ） (Thu, 30 Jun 2022 07:15:45 GMT)
- バイオ・医療分野のデータセット。126のデータセットがありタスクカテゴリは以下の12とのこと。
  - Knowledge Base (KB)
    - Named entity recognition (NER)
    - Named entity disambiguation/normalization/linking (NED)
    - Event extraction (EE)
    - Relation extraction (RE)
    - Coreference resolution (COREF)
  - Question Answering (QA)
    - Question answering (QA)
  - Textual Entailment (TE)
    - Textual entailment (TE)
  - Text Pairs (PAIRS)
    - Semantic Similarity (STS)
  - Text to Text (T2T)
    - Paraphasing (PARA)
    - Translation (TRANSL)
    - Summarization (SUM)
  - Text (TEXT)
    - Text classification (TXTCLASS)

リポジトリはGitHub – bigscience-workshop/biomedical: Tools for curating biomedical training data for large-scale language modeling

小さなシードデータを用いたデータ構築

Few-shot Mining of Naturally Occurring Inputs and Outputs [83.4]
我々は,100個の小さなSeedセットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文参考訳（メタデータ）参考訳（全文） (Mon, 9 May 2022 05:40:52 GMT)
- 最初に小規模データを準備、その知識を用いて大規模コーパスから学習データを構築しようという報告。XSumとSQuADで有効性を確認とのこと。

DataCLUE: Data-Centric AIのベンチマーク

DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 16:24:55 GMT)
- モデル性能向上のためデータの品質向上を重視する、Data-centric AIに関するベンチマーク（コンペティション）。CLUE(Chinese Language Understanding Evaluation Benchmark)をベースにしているので中国語版。
  - Data-Centric AI Competition (https-deeplearning-ai.github.io)のようなコンペが開かれていたりもして興味深い活動。
  - FuguMTのデータで似たようなことやれないかなと思いつつ、機械翻訳モデルは学習コストが高いのが難点だなと思う。
- プロジェクトサイト（英語版）はhttps://github.com/CLUEbenchmark/DataCLUE/blob/master/README_en.md
ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp)　でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心（データの品質向上技術を競う）ベンチマークを作りたいなと思わなくもない。

2026年6月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30