OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル(リポジトリ:allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス)で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル(リポジトリ:mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス)、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

  • OLMoE: Open Mixture-of-Experts Language Models [180.2]
    OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
    論文  参考訳(メタデータ)   (Tue, 03 Sep 2024 17:08:20 GMT)
  • Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
    トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。 我々は「反射チューニング」と呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
    論文  参考訳(メタデータ)   (Wed, 18 Oct 2023 05:13:47 GMT)
  • Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
    最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。 この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
    論文  参考訳(メタデータ)   (Fri, 07 Jun 2024 20:23:21 GMT)
  • リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

  • Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
    提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:38:59 GMT)
  • TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
  • リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
  • xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
    本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:57:01 GMT)
  • xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
  • プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

  • RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
    大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
    論文  参考訳(メタデータ)   (Wed, 21 Aug 2024 07:20:48 GMT)
  • RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
  • リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Speech-MASSIVE

VITA: Towards Open-Source Interactive Omni Multimodal LLM

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

LAMBDA: A Large Model Based Data Agent

Very Large-Scale Multi-Agent Simulation in AgentScope 

  • Very Large-Scale Multi-Agent Simulation in AgentScope [115.8]
    我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。 高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。 多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供する。
    論文  参考訳(メタデータ)   (Thu, 25 Jul 2024 05:50:46 GMT)
  • マルチエージェントシミュレーションを想定したフレームワークの提案、Apache 2ライセンスとOSS。使いやすそうなのと「Users only need to simply specify the distributions of the population from several aspects, a large number of agents with detailed and diverse characteristics can be effortlessly generated accordingly.」といった機能があるのも特徴的。
  • リポジトリはGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.

Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data

Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。

Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。

上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。

下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。

  • Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
    各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 23:13:42 GMT)
  • 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

上記には要注目。公開モデルの動きも速い。

  • Qwen2 Technical Report [139.8]
    Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。 言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 12:35:42 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
  • リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.
  • Qwen2-Audio Technical Report [73.9]
    本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 14:38:09 GMT)
  • 「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
  • リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
  • Scaling Granite Code Models to 128K Context [37.3]
    本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。 私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 17:46:02 GMT)
  • IBMのGraniteも128Kと長いコンテキストに対応
  • リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence