VITA: Towards Open-Source Interactive Omni Multimodal LLM

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成(だけではないが)AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃(Segment Anything – arXiv最新論文の紹介 (devneko.jp))から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場(Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com))した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く(FLUX.1は一部)が公開されているのが非常に興味深い。

  • SAM 2: Segment Anything in Images and Videos
    segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
  • 動画のセグメンテーションがSAM的に可能になったSAM2。
  • 公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

LAMBDA: A Large Model Based Data Agent

Very Large-Scale Multi-Agent Simulation in AgentScope 

  • Very Large-Scale Multi-Agent Simulation in AgentScope [115.8]
    我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。 高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。 多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供する。
    論文  参考訳(メタデータ)   (Thu, 25 Jul 2024 05:50:46 GMT)
  • マルチエージェントシミュレーションを想定したフレームワークの提案、Apache 2ライセンスとOSS。使いやすそうなのと「Users only need to simply specify the distributions of the population from several aspects, a large number of agents with detailed and diverse characteristics can be effortlessly generated accordingly.」といった機能があるのも特徴的。
  • リポジトリはGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.

Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data

Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。

Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overfitted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。

上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。

下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。

  • Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
    各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。 生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 23:13:42 GMT)
  • 実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

上記には要注目。公開モデルの動きも速い。

  • Qwen2 Technical Report [139.8]
    Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。 言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 12:35:42 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
  • リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.
  • Qwen2-Audio Technical Report [73.9]
    本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 14:38:09 GMT)
  • 「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
  • リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
  • Scaling Granite Code Models to 128K Context [37.3]
    本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。 私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
    論文  参考訳(メタデータ)   (Thu, 18 Jul 2024 17:46:02 GMT)
  • IBMのGraniteも128Kと長いコンテキストに対応
  • リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

PaliGemma、ChartGemma

  • PaliGemma: A versatile 3B VLM for transfer [112.4]
    PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
    論文  参考訳(メタデータ)   (Wed, 10 Jul 2024 14:57:46 GMT)
  • PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
  • ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
    本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 22:16:40 GMT)
  • PaliGemmaのチャート対応バージョン
  • リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan

高い性能が話題となったCALM3 22B(論文などはまだ?)、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。

  • YuLan: An Open-source Large Language Model [179.6]
    本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。 これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
    論文  参考訳(メタデータ)   (Fri, 28 Jun 2024 11:52:53 GMT)
  • リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model

Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

  • ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
    本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 16:58:21 GMT)
  • GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
  • リポジトリはTHUDM · GitHub サイトは智谱清言 (chatglm.cn)