Data-centric AI – arXiv最新論文の紹介

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.6]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (Thu, 22 Jan 2026 12:02:45 GMT)
LLMを用いたデータ整理に関するサーベイ。
リポジトリはGitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paper

LIMI: Less is More for Agency

LIMI: Less is More for Agency [49.6]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文参考訳（メタデータ） (Mon, 22 Sep 2025 10:59:32 GMT)
「These findings establish the Agency Efficiency Principle: machine autonomy emerges not from data abundance but from strategic curation of high-quality agentic demonstrations. This discovery fundamentally reshapes how we develop autonomous AI systems, suggesting that mastering agency requires understanding its essence, not scaling training data.」という主張。「we refer to models fine-tuned with our curated dataset as LIMI (corresponding to fine-tuning GLM-4.5) and LIMI-Air (corresponding to fine-tuning GLM-4.5-Air).」とSFTのようなだが、パラメータの大きなGLM-4.5ベースの方が改善幅も大きく見える。
リポジトリはGitHub – GAIR-NLP/LIMI: LIMI: Less is More for Agency

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.3]
タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
論文参考訳（メタデータ） (Wed, 12 Feb 2025 22:34:50 GMT)
「Tabular data-centric AI is evolving with RL-based optimization and generative modeling playing a key role in feature engineering.」とのこと。現状でも重要性が下がっていないテーブルデータに対してRL系の最適化や生成AI活用などをサーベイした論文。

不均衡データに対するサーベイも出ていた。こちらも過去から重要な視点。

A Comprehensive Survey on Imbalanced Data Learning [45.3]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。本調査は,様々な実世界のデータ形式を体系的に分析する。さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文参考訳（メタデータ） (Thu, 13 Feb 2025 04:53:17 GMT)

Efficient Online Data Mixing For Language Model Pre-Training

Efficient Online Data Mixing For Language Model Pre-Training [101.5]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (Tue, 5 Dec 2023 00:42:35 GMT)
下流タスクに最適な事前学習用データを作るための効率的なアルゴリズムの提案、名前の通りオンラインなアプローチ。DoReMi: Domain Reweighting with Minimax Optimization – arXiv最新論文の紹介 (devneko.jp)からの改善を主張（というか一部は再現できていない？）

Beyond Human Data

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 23:16:16 GMT)
LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Data-Centric Financial Large Language Models

Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文参考訳（メタデータ） (Sat, 7 Oct 2023 04:53:31 GMT)
金融分野向けにLLMを活用するため、データの前処理を工夫・拡張（AAR: abductive augmentation reasoning ）など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain＋LLMより有効とのこと。
「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Textbooks Are All You Need

Textbooks Are All You Need [46.8]
phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 16:14:25 GMT)
教科書品質のデータ（6B）＋GPT-3.5が出力した品質の高いテキスト（1B）を用いて、1.3Bパラメータ（使用計算リソース 8 GPU * 4 days）という比較的小型で優れた性能を持つモデルが構築できたとのこと
タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

Scaling Data-Constrained Language Models

Scaling Data-Constrained Language Models [151.9]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文参考訳（メタデータ） (Thu, 25 May 2023 17:18:55 GMT)
データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

DataComp

DataComp: In search of the next generation of multimodal datasets [130.6]
我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 11:37:18 GMT)
良いマルチモーダルデータセットを作ることを目的としたベンチマーク（コンペティション？）データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
プロジェクトサイトはDataComp

Data-centric AIに関するサーベイ

同じ研究グループによる（と思われる）Data中心AIに関するサーベイが出ていた。コンパクトな概要とFullのサーベイという印象。両方とも（著者らによる）GitHub – daochenzha/data-centric-AI: A curated, but incomplete, list of data-centric AI resources.を参照している

ChatGPTに関する言及もあり、人間による高品質なデータの重要性を主張している

Data-centric AI: Perspectives and Challenges [51.7]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 05:18:56 GMT)
5ページとコンパクトな概要

Data-centric Artificial Intelligence: A Survey [47.2]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 04:43:32 GMT)
39ページ、引用数300近くとフルのサーベイ

2026年6月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30