Consent in Crisis: The Rapid Decline of the AI Data Commons 

  • Consent in Crisis: The Rapid Decline of the AI Data Commons [74.7]
    汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。 我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
    論文  参考訳(メタデータ)   (Sat, 20 Jul 2024 16:50:18 GMT)
  • 「We observe a proliferation of AIspecific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt.」という報告。WEB検索のためのrobots.txtとAI利用のための条項が異なるのはそうだろうと思うし、AI利用だとそもそものトラフィック(や広告閲覧)がオリジナルサイトに行かないので問題が大きい。「Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use.」というのも驚き。
  • リポジトリはGitHub – Data-Provenance-Initiative/Data-Provenance-Collection
  • SearchGPT is a prototype of new AI search features | OpenAIのような動きとも関連し、この手の問題をどう解決していくかはとても重要。

MINITRON / Compact Language Models via Pruning and Knowledge Distillation

  • Compact Language Models via Pruning and Knowledge Distillation [61.6]
    ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
    論文  参考訳(メタデータ)   (Fri, 19 Jul 2024 21:47:57 GMT)
  • Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
  • リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation

sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting 

  • sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [27.1]
    本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。 SPhinXは、命令応答対を英語から50言語に選択的に翻訳することで作成される。 Phi-3-Small と Mistral-7B の2つの最先端モデルを微調整するために sPhinX の有効性を検証した。
    論文  参考訳(メタデータ)   (Sat, 13 Jul 2024 13:03:45 GMT)
  • 「To mitigate this issue, we prompt GPT-4 to selectively translate the instructions, so that the tasks are translated into the appropriate language without changing the semantic meaning.」とLLMを用いた機械翻訳を有効に使った多言語fine tuning。
  • 「We devise LAnguage-Specific N-shot Guided Instruction fine-tuning (LANG) strategy for enhancing the multilingual capabilities of LLMs」を含め有効だとは思うのだが現時点ではライセンス上使いにくい・・・(ライセンス的にOKなNemotronだと現実的なのか気になるところ)

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

  • Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
    大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 03:05:53 GMT)
  • Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework  で優れた性能を達成と報告。
  • リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models

  • Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.3]
    多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。 これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。 本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 16:29:08 GMT)
  • 複数のLLMをうまく使う方法のサーベイ
  • 研究領域がとても広いことがよくわかる(そして絵がかわいい)

LLMBox: A Comprehensive Library for Large Language Models 

  • LLMBox: A Comprehensive Library for Large Language Models [109.2]
    本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。 このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 02:39:33 GMT)
  • LLM関連のもろもろを集めたライブラリ。必要なものが集まっていると便利というのと、GPUメモリの必要量などの情報がまとまっているのもありがたい。
  • リポジトリはGitHub – RUCAIBox/LLMBox: A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 

  • LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.3]
    事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
    論文  参考訳(メタデータ)   (Sat, 13 Jul 2024 07:36:49 GMT)
  • fine tuning用のデータを拡張していくフレームワークの提案。間違った部分に注目するアプローチでLlama-2-7Bを用いて有効性を検証とのこと。
  • リポジトリはGitHub – SqueezeAILab/LLM2LLM: [ACL 2024] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

上記には要注目。公開モデルの動きも速い。

  • Qwen2 Technical Report [139.8]
    Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。 言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 12:35:42 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
  • リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.
  • Qwen2-Audio Technical Report [73.9]
    本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 14:38:09 GMT)
  • 「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
  • リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
  • Scaling Granite Code Models to 128K Context [37.3]
    本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。 私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 17:46:02 GMT)
  • IBMのGraniteも128Kと長いコンテキストに対応
  • リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

  • Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.7]
    AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。 ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 11:26:07 GMT)
  • ChatBot Arenaの評価を再現する環境をAIで実現、「This paper introduces Arena Learning, a simulated offline chatbot arena that utilizes AI LLMs to bypass the manual and time-intensive cost typically associated with preparing the arena battle data, while preserving the core advantages of the arena-based evaluation and training.」、「Furthermore, the model trained iteratively on synthetic data generated by Arena Learning exhibits significant performance improvements using various training strategies.」とのこと。
  • 自己改善、合成データ活用の文脈でも非常に興味深い。
  • AgentInstruct: Toward Generative Teaching with Agentic Flows [12.2]
    我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。 本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 21:01:12 GMT)
  • 上記とは異なりAgenticなデータ合成アプローチも有望。

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models 

  • SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1]
    SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 06:34:21 GMT)
  • 一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
  • 「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
  • マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。