Efficient Online Data Mixing For Language Model Pre-Training 

  • Efficient Online Data Mixing For Language Model Pre-Training [101.5]
    既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。 一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。 我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
    論文  参考訳(メタデータ)   (Tue, 5 Dec 2023 00:42:35 GMT)
  • 下流タスクに最適な事前学習用データを作るための効率的なアルゴリズムの提案、名前の通りオンラインなアプローチ。DoReMi: Domain Reweighting with Minimax Optimization – arXiv最新論文の紹介 (devneko.jp)からの改善を主張(というか一部は再現できていない?)

Beyond Human Data

  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
    人為的なデータに基づく微調整言語モデル(LM)が普及している。 我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 23:16:16 GMT)
  • LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
  • 数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Data-Centric Financial Large Language Models 

  • Data-Centric Financial Large Language Models [27.5]
    大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
    論文  参考訳(メタデータ)   (Sat, 7 Oct 2023 04:53:31 GMT)
  • 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
  • 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Textbooks Are All You Need

  • Textbooks Are All You Need [46.8]
    phi-1はトランスフォーマーベースのモデルで、1.3Bパラメータを持ち、8A100で4日間訓練された。 phi-1はHumanEvalで50.6%、MBPPで55.5%の精度を達成した。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:25 GMT)
  • 教科書品質のデータ(6B)+GPT-3.5が出力した品質の高いテキスト(1B)を用いて、1.3Bパラメータ(使用計算リソース 8 GPU * 4 days)という比較的小型で優れた性能を持つモデルが構築できたとのこと
  • タスクがコード生成かつPythonと特化されている点に注意が必要だが、品質の高いデータの重要性が分かる報告。パラメータは小さめと言いつつ、パラメータ拡大が品質向上に効果がありそうに見える。

Scaling Data-Constrained Language Models

  • Scaling Data-Constrained Language Models [151.9]
    データ制約付きシステムにおける言語モデルのスケーリングについて検討する。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 17:18:55 GMT)
  • データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
  • リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

DataComp

  • DataComp: In search of the next generation of multimodal datasets [130.6]
    我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:37:18 GMT)
  • 良いマルチモーダルデータセットを作ることを目的としたベンチマーク(コンペティション?)データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
  • プロジェクトサイトはDataComp

Data-centric AIに関するサーベイ

同じ研究グループによる(と思われる)Data中心AIに関するサーベイが出ていた。コンパクトな概要とFullのサーベイという印象。両方とも(著者らによる)GitHub – daochenzha/data-centric-AI: A curated, but incomplete, list of data-centric AI resources.を参照している

ChatGPTに関する言及もあり、人間による高品質なデータの重要性を主張している

  • Data-centric AI: Perspectives and Challenges [51.7]
    データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。 データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 05:18:56 GMT)
  • 5ページとコンパクトな概要
  • Data-centric Artificial Intelligence: A Survey [47.2]
    近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。 本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。 これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 04:43:32 GMT)
  • 39ページ、引用数300近くとフルのサーベイ

Data-centric AI: Perspectives and Challenges

  • Data-centric AI: Perspectives and Challenges [51.7]
    データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。 データ開発、評価データ開発、データメンテナンスの3つの一般的なミッションをまとめる。 今後の探索を動機付けるためのオープンな課題をリストアップする。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 05:28:59 GMT)
  • Data-centric AIに関する解説。5ページと短いが、Training Data Development, Evaluation Data Development, Data Maintenaceに分けて概要と動向を解説している。

データ中心の疫学予測のサーベイ

  • Data-Centric Epidemic Forecasting: A Survey [57.0]
    この調査は、様々なデータ駆動の方法論および実践的進歩を掘り下げるものである。 疫学的なデータセットと,流行予測に関連する新しいデータストリームを列挙する。 また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。
    論文  参考訳(メタデータ)   (Wed, 20 Jul 2022 05:13:18 GMT)
    • 疫学的な予測とData-Centricに関するサーベイ。統計的手法、機械学習的手法の違いなども参考になる。引用数373。

BigBIO

  • BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing [13.3]
    バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。 BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。 本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
    論文  参考訳(メタデータ)   (Thu, 30 Jun 2022 07:15:45 GMT)
    • バイオ・医療分野のデータセット。126のデータセットがありタスクカテゴリは以下の12とのこと。
      • Knowledge Base (KB)
        • Named entity recognition (NER)
        • Named entity disambiguation/normalization/linking (NED)
        • Event extraction (EE)
        • Relation extraction (RE)
        • Coreference resolution (COREF)
      • Question Answering (QA)
        • Question answering (QA)
      • Textual Entailment (TE)
        • Textual entailment (TE)
      • Text Pairs (PAIRS)
        • Semantic Similarity (STS)
      • Text to Text (T2T)
        • Paraphasing (PARA)
        • Translation (TRANSL)
        • Summarization (SUM)
      • Text (TEXT)
        • Text classification (TXTCLASS)