OSS – ページ 2 – arXiv最新論文の紹介

Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

Llama 3.2
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models (meta.com)
Llama 3.2 – a meta-llama Collection (huggingface.co)

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (Wed, 25 Sep 2024 17:59:51 GMT)
プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳（メタデータ） (Thu, 26 Sep 2024 16:44:02 GMT)
マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル（既存アーキテクチャをベースに著者らがpre train）なアーキテクチャ。
プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)、

OLMoE, Reflection-70B, Tanuki-8×8B, 8B

OSSまたは公開モデルのLLM開発は引き続き盛んである。

OLMoE-1B-7BはMoE構成の小規模・高性能モデル（リポジトリ：allenai/OLMoE-1B-7B-0924 · Hugging Face、Apache-2ライセンス）で論文も公表されている。

Reflection-70Bは現時点で最高レベルの性能をもつ公開モデル（リポジトリ：mattshumer/Reflection-Llama-3.1-70B · Hugging Face、Llama 3.1ライセンス）、現状詳細は公開されていなさそうだが、「Reflection Llama-3.1 70B is (currently) the world’s top open-source LLM, trained with a new technique called Reflection-Tuning that teaches a LLM to detect mistakes in its reasoning and correct course. The model was trained on synthetic data generated by Glaive.」との記載がある。

日本でも東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab (u-tokyo.ac.jp)が発表されているのが素晴らしい。こちらは開発過程が大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など (zenn.dev)で公開されている。合成データの活用は最近発表された海外モデルでも多用されているテクニック。

OLMoE: Open Mixture-of-Experts Language Models [180.2]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 17:08:20 GMT)

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.3]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (Wed, 18 Oct 2023 05:13:47 GMT)
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning [39.7]
最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善する新パラダイムであるSelective Reflection-Tuningを紹介する。この教師と学生の協調作業により、高品質で生徒互換の授業応答ペアが作成され、結果としてサンプル効率のよい指導チューニングがもたらされる。
論文参考訳（メタデータ） (Fri, 07 Jun 2024 20:23:21 GMT)
リポジトリはGitHub – tianyi-lab/Reflection_Tuning: [ACL’24] Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文参考訳（メタデータ） (Thu, 22 Aug 2024 17:38:59 GMT)
TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。（データの差かもしれないが。。）
リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)

LLM Pruning and Distillation in Practice: The Minitron Approach [61.6]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。 1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 17:38:48 GMT)
MInitronアプローチ（MINITRON / Compact Language Models via Pruning and Knowledge Distillation – arXiv最新論文の紹介 (devneko.jp)）での公開モデルの小規模化
リポジトリはnvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face、nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (Fri, 16 Aug 2024 17:57:01 GMT)
xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.7]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。 RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文参考訳（メタデータ） (Wed, 21 Aug 2024 07:20:48 GMT)
RAGに関するモジュール型フレームワーク、「open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics.」とあるが、実利用でも抽象化しすぎて使いにくいことは多い印象…
リポジトリはGitHub – fate-ubw/RAGLAB: RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation

Speech-MASSIVE

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.7]
Speech-MASSIVEは多言語音声言語理解データセットである。異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 16:55:28 GMT)
マルチリンガルな音声の言語理解データセット（spoken language understanding (SLU – the task of extracting semantic information from spoken utterances, which typically involves subtasks like intent detection and slot ﬁlling)）
リポジトリはGitHub – hlt-mt/Speech-MASSIVE: Speech-MASSIVE is a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus.
ライセンスはCC-BY-SA-4.0、日本語が入っていないのが残念。。。

VITA: Towards Open-Source Interactive Omni Multimodal LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM [106.5]
ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
論文参考訳（メタデータ） (Fri, 09 Aug 2024 17:59:49 GMT)
オープンなMLLMを目指す取り組み、Mixtral 8×7Bベース
プロジェクトサイトはHello VITA (vita-home.github.io)、リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA: Towards Open-Source Interactive Omni Multimodal LLM

Segment Anything Model 2, Gemma 2 2B, Black Forest Labs Flux

先週も生成（だけではないが）AI関連のニュースは多かった。MetaにおるSAM2はSAMの衝撃（Segment Anything – arXiv最新論文の紹介 (devneko.jp)）から1年ちょっとで大幅に進化した印象。Gemma2 2Bは小規模だが強力なモデルとして登場（Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma – Google Developers Blog (googleblog.com)）した。新たに設立されたAnnouncing Black Forest Labs – Black Forest LabsはSOTAを主張する画像生成モデルFLUX.1 を発表した。

これらモデルの多く（FLUX.1は一部）が公開されているのが非常に興味深い。

SAM 2: Segment Anything in Images and Videos
segment anything model 2 (sam2) は画像や動画の視覚的セグメンテーションを高速化するための基礎モデルである。ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。ビデオセグメンテーションでは,従来のアプローチよりも3少ないインタラクションを用いて,より良い精度を観察する。
動画のセグメンテーションがSAM的に可能になったSAM2。
公式サイトはMeta Segment Anything Model 2、リポジトリはMeta Segment Anything Model 2

Gemma2 2Bのリポジトリはgoogle/gemma-2-2b · Hugging Face

FLUX.1は最高性能のProはAPI利用、次に強力なDevは非商用利用の条件でblack-forest-labs/FLUX.1-dev · Hugging Face、最後のschnellはblack-forest-labs/FLUX.1-schnell · Hugging FaceからApache2ライセンスでからダウンロード可能。

LAMBDA: A Large Model Based Data Agent

LAMBDA: A Large Model Based Data Agent [7.2]
LAMBDAは、オープンソースのコードフリーマルチエージェントデータ分析システムである。複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。 LAMBDAは、さまざまな機械学習データセットで強力なパフォーマンスを示している。
論文参考訳（メタデータ） (Wed, 24 Jul 2024 06:26:36 GMT)
マルチエージェントなデータ分析システム
リポジトリはGitHub – Stephen-SMJ/LAMBDA: This is the offical repository of paper “LAMBDA: A large Model Based Data Agent”. https://www.polyu.edu.hk/ama/cmfai/lambda.html

Very Large-Scale Multi-Agent Simulation in AgentScope

Very Large-Scale Multi-Agent Simulation in AgentScope [115.8]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供する。
論文参考訳（メタデータ） (Thu, 25 Jul 2024 05:50:46 GMT)
マルチエージェントシミュレーションを想定したフレームワークの提案、Apache 2ライセンスとOSS。使いやすそうなのと「Users only need to simply specify the distributions of the population from several aspects, a large number of agents with detailed and diverse characteristics can be effortlessly generated accordingly.」といった機能があるのも特徴的。
リポジトリはGitHub – modelscope/agentscope: Start building LLM-empowered multi-agent applications in an easier way.

Llama 3.1, Mistral Large2, AI models collapse when trained on recursively generated data

Llama3.1が発表された。商用モデルに追いついた公開モデルであり意義は非常に大きい。非商用利用のみであるが、Mistralも強力なモデルMistral Large2を公開している。

Llama 3.1の学習では特にSFT用データとして合成データがうまく用いられているよう。また、「For example, to ensure Llama 3 is not accidentally overﬁtted on commonly used benchmarks, our pre-training data was procured and processed by a separate team that was strongly incentivized to prevent contamination of that pre-training data with external benchmarks.」という指摘も印象的だった。

上記とは若干論点が異なる気もするが、AI models collapse when trained on recursively generated data | Natureでは「トレーニングにおけるモデル生成コンテンツの無差別使用は、結果のモデルに不可逆的な欠陥を引き起こす。我々は、この効果を「モデル崩壊」と呼び、LLMや変分オートエンコーダで起こりうることを示す。webから収集した大規模データからトレーニングのメリットを維持するためには,真剣に取り組む必要があることを実証する。」と指摘していた。データ合成の悪影響、モデル崩壊についての指摘であり興味深い。

下記のように通常のデータと合成データの混合によってモデル崩壊を避けられるという指摘もある。Data augmentationの限界、機械翻訳だとBack translationの限界のように一定以上の性能向上が無理なのは直観的にはそうだろうと思うが、どの程度までいけるのか気になるところ。

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.7]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文参考訳（メタデータ） (Mon, 29 Apr 2024 23:13:42 GMT)
実証実験および線警戒機においては理論的に「Our findings extend these prior works to show that if data accumulates and models train on a mixture of “real” and synthetic data, model collapse no longer occurs.」、「Together, these results strongly suggest that the “curse of recursion” may not be as dire as had been portrayed – provided we accumulate synthetic data alongside real data, rather than replacing real data by synthetic data only.」と指摘。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31