OSS – ページ 3 – arXiv最新論文の紹介

GPT-4o mini、MistralNeMo、DCLM 7B、Qwen2、Granite

先週もLLM関連の話題は多かった。

GPT-3.5よりもコスト・速度に優れ性能も高いGPT-4o miniはビジネスでの注目度が高い。

OSS関連でのアップデートも多かった。

MistralとNVIDIAが協力して開発した小型で強力なMistral NeMo（Mistral NeMo | Mistral AI | Frontier AI in your hands、mistralai/Mistral-Nemo-Base-2407 · Hugging Face）
AppleによるDCLM 7B（apple/DCLM-7B · Hugging Face＆関連：DataComp-LM: In search of the next generation of training sets for language models – arXiv最新論文の紹介 (devneko.jp)）
Qwen2についてのテクニカルレポート（Audio-Language含む）
長いコンテキストに対応したGranite

上記には要注目。公開モデルの動きも速い。

Qwen2 Technical Report [139.8]
Qwen2は、前機種のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを上回っている。言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して、競争力のあるパフォーマンスを示す。 Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 12:35:42 GMT)
GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)のテクニカルレポート。強力なパフォーマンスを発揮し、多言語性能も高い。
リポジトリはGitHub – QwenLM/Qwen2: Qwen2 is the large language model series developed by Qwen team, Alibaba Cloud.

Qwen2-Audio Technical Report [73.9]
本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 14:38:09 GMT)
「According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities.」と強力な性能を主張するAudio-Languageモデル。
リポジトリはGitHub – QwenLM/Qwen2-Audio: The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.

Scaling Granite Code Models to 128K Context [37.3]
本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
論文参考訳（メタデータ） (Thu, 18 Jul 2024 17:46:02 GMT)
IBMのGraniteも128Kと長いコンテキストに対応
リポジトリはGitHub – ibm-granite/granite-code-models: Granite Code Models: A Family of Open Foundation Models for Code Intelligence

PaliGemma、ChartGemma

PaliGemma: A versatile 3B VLM for transfer [112.4]
PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
論文参考訳（メタデータ） (Wed, 10 Jul 2024 14:57:46 GMT)
PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 22:16:40 GMT)
PaliGemmaのチャート対応バージョン
リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan

高い性能が話題となったCALM3 22B（論文などはまだ？）、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。

CALM3 22Bについてはこの記事を作成時点で公式ニュースリリースやテクニカルレポート、論文の発表などはなさそう
- cyberagent/calm3-22b-chat · Hugging Face
- 個人的な検証ではかなり高性能に思える　CyberAgentLM3-22B-Chat (CALM3-22B-Chat)の機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.2]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。 IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。 IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文参考訳（メタデータ） (Wed, 3 Jul 2024 17:59:21 GMT)
リポジトリはGitHub – InternLM/InternLM-XComposer: InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

YuLan: An Open-source Large Language Model [179.6]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文参考訳（メタデータ） (Fri, 28 Jun 2024 11:52:53 GMT)
リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート（gemma-2-report.pdf (storage.googleapis.com)）には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

ニュースリリース：Google launches Gemma 2, its next generation of open models (blog.google)
リポジトリ
- google/gemma-2-9b-it · Hugging Face
- google/gemma-2-27b-it · Hugging Face

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools [119.3]
本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 GLM-4モデルは、主に中国語と英語で10兆のトークンと、24言語からの小さなコーパスで事前訓練されている。高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。
論文参考訳（メタデータ） (Tue, 18 Jun 2024 16:58:21 GMT)
「GLM-4-9B, Qwen2 – arXiv最新論文の紹介 (devneko.jp)」にも関連する論文、最近は論文公開前にWEBで情報が出ることが多い気がする。基礎能力として「1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval,2) gets close to GPT-4-Turbo in instruction following as measured by IFEval,3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and4) outperforms GPT-4 in Chinese alignments as measured by AlignBench.」と強力であり、「Built on the GLM-4’s all-tools capabilities, we also developed the GLMs application platform that allows users to create and customize their own agents for specific tasks.」とエージェント的動作のプラットフォームも存在するよう。
リポジトリはTHUDM · GitHub　サイトは智谱清言 (chatglm.cn)

Nemotron-4 340B

NVIDIAからオープンなモデルNemotron-4 340Bが発表された。

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models | NVIDIA Blog

NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.

とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容（nvidia-open-model-license-agreement-june-2024.pdf）で

• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.

とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。

If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.

性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル（GPT-4oやGemini Proなど）を上回る。

fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。

Rewardモデルについては下記論文も参考になる。

HelpSteer2: Open-source dataset for training top-performing reward models [9.2]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。 HelpSteer2は1万のレスポンスペアで構成されている。本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 22:28:08 GMT)
NVIDIAによるRewardモデル用データセットと手法の提案
データはnvidia/HelpSteer2 · Datasets at Hugging Face　リポジトリはGitHub – NVIDIA/NeMo-Aligner: Scalable toolkit for efficient model alignment

GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」（Hello Qwen2 | Qwen (qwenlm.github.io)）と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

MoEで小型強力なYuan 2.0-M32
SSM（＆Transformerのハイブリッド）であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
中国語-英語ではあるが強力なオープンモデルであるMAP-Neo

Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
論文参考訳（メタデータ） (Tue, 28 May 2024 09:05:08 GMT)
MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model

Zamba: A Compact 7B SSM Hybrid Model [11.0]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文参考訳（メタデータ） (Sun, 26 May 2024 22:23:02 GMT)
SSMとTransformerのハイブリッドで効率的だが強力なLLM
リポジトリはZyphra/Zamba-7B-v1 · Hugging Face

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
論文参考訳（メタデータ） (Wed, 29 May 2024 17:57:16 GMT)
強力かつオープンなLLM
プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Risks and Opportunities of Open-Source Generative AI

Risks and Opportunities of Open-Source Generative AI [64.7]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (Tue, 14 May 2024 13:37:36 GMT)
活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。

タグ: OSS