Hunyuan-Large

  • Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [83.4]
    Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。 我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。 Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
    論文  参考訳(メタデータ)   (Tue, 05 Nov 2024 04:14:25 GMT)
  • 高性能かつモデルが公開されているタイプのLLM。389Bパラメータうち52BがアクティブなるMoEでLlama 3.1 70Bを超え、405Bと競合的と主張。比較的寛容なライセンスであるが「THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.」というのが特徴的。「This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China」との記載も。
  • リポジトリはGitHub – Tencent/Tencent-Hunyuan-Large、モデルはtencent/Tencent-Hunyuan-Large · Hugging Face

TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

  • TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration [33.9]
    視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。 本稿では,分離されたエージェントの知識を統一的に伝達する,汎用的で簡潔なTransAgentフレームワークを提案する。 われわれのTransAgentは、11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 03:01:44 GMT)
  • エージェンティックなモデルの統合、「By adaptively integrating the external knowledge of agents from different modalities via MoA gating mechanism, TransAgent achieves state-of-the-art performance on 11 datasets under the low-shot scenarios.」とのこと。
  • リポジトリはGitHub – markywg/transagent: [NeurIPS 2024] TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning

  • A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
    MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。 このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
    論文  参考訳(メタデータ)   (Tue, 13 Aug 2024 17:49:00 GMT)
  • いわゆるMoE:Mixture-of-Expertsよりも広い概念であるMoErging(a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.)のサーベイ

MoExtend: Tuning New Experts for Modality and Task Extension

Yuan 2.0-M32, Zamba, MAP-Neo

今週も興味深いLLMが発表されている。

  • MoEで小型強力なYuan 2.0-M32
  • SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
  • 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
  • Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
    Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
    論文  参考訳(メタデータ)   (Tue, 28 May 2024 09:05:08 GMT)
  • MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
  • リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
  • Zamba: A Compact 7B SSM Hybrid Model [11.0]
    Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
    論文  参考訳(メタデータ)   (Sun, 26 May 2024 22:23:02 GMT)
  • SSMとTransformerのハイブリッドで効率的だが強力なLLM
  • リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
  • MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
    私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:57:16 GMT)
  • 強力かつオープンなLLM
  • プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)

Mixtral of Experts 

  • Mixtral of Experts [57.4]
    Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 18:47:34 GMT)
  • 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
  • Mixtral of experts | Mistral AI | Open-weight models

Sparse Expert Modelの効率的設計

  • Designing Effective Sparse Expert Models [45.2]
    MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
    論文  参考訳(メタデータ)   (Thu, 17 Feb 2022 21:39:10 GMT)

Mixtures of Expertsと高密度モデルの比較

  • Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
    エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 17:05:11 GMT)
    • 最近よく見る疎なモデル(Mixtures of Experts)と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは?としている。
    • MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
    • リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。