- Mixture of Hidden-Dimensions Transformer [50.4]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。 スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 13:15:22 GMT) - 最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
- 「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと
タグ: Mixture of Experts
MH-MoE:Multi-Head Mixture-of-Experts
- MH-MoE:Multi-Head Mixture-of-Experts [119.5]
MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 09:05:36 GMT) - Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
- 「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」
Hunyuan-Large
- Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [83.4]
Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。 我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。 Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
論文 参考訳(メタデータ) (Tue, 05 Nov 2024 04:14:25 GMT) - 高性能かつモデルが公開されているタイプのLLM。389Bパラメータうち52BがアクティブなるMoEでLlama 3.1 70Bを超え、405Bと競合的と主張。比較的寛容なライセンスであるが「THIS LICENSE AGREEMENT DOES NOT APPLY IN THE EUROPEAN UNION AND IS EXPRESSLY LIMITED TO THE TERRITORY, AS DEFINED BELOW.」というのが特徴的。「This Agreement and any dispute arising out of or relating to it will be governed by the laws of the Hong Kong Special Administrative Region of the People’s Republic of China」との記載も。
- リポジトリはGitHub – Tencent/Tencent-Hunyuan-Large、モデルはtencent/Tencent-Hunyuan-Large · Hugging Face
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
- TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration [33.9]
視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。 本稿では,分離されたエージェントの知識を統一的に伝達する,汎用的で簡潔なTransAgentフレームワークを提案する。 われわれのTransAgentは、11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 03:01:44 GMT) - エージェンティックなモデルの統合、「By adaptively integrating the external knowledge of agents from different modalities via MoA gating mechanism, TransAgent achieves state-of-the-art performance on 11 datasets under the low-shot scenarios.」とのこと。
- リポジトリはGitHub – markywg/transagent: [NeurIPS 2024] TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning
- A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.9]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。 このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 17:49:00 GMT) - いわゆるMoE:Mixture-of-Expertsよりも広い概念であるMoErging(a new paradigm for decentralized model development that aims to recycle expert models trained asynchronously by distributed contributors.)のサーベイ
MoExtend: Tuning New Experts for Modality and Task Extension
- MoExtend: Tuning New Experts for Modality and Task Extension [61.3]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 02:28:37 GMT) - MoE的なものだが、モダリティを拡張する手法の提案、実験結果からも非常に効果的に見える。
- リポジトリはGitHub – zhongshsh/MoExtend: ACL 2024 (SRW), Official Codebase of our Paper: “MoExtend: Tuning New Experts for Modality and Task Extension”
Yuan 2.0-M32, Zamba, MAP-Neo
今週も興味深いLLMが発表されている。
- MoEで小型強力なYuan 2.0-M32
- SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
- 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
- Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
論文 参考訳(メタデータ) (Tue, 28 May 2024 09:05:08 GMT) - MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
- リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
- Zamba: A Compact 7B SSM Hybrid Model [11.0]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文 参考訳(メタデータ) (Sun, 26 May 2024 22:23:02 GMT) - SSMとTransformerのハイブリッドで効率的だが強力なLLM
- リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
- MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
論文 参考訳(メタデータ) (Wed, 29 May 2024 17:57:16 GMT) - 強力かつオープンなLLM
- プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)
Mixtral of Experts
- Mixtral of Experts [57.4]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
論文 参考訳(メタデータ) (Mon, 8 Jan 2024 18:47:34 GMT) - 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
- Mixtral of experts | Mistral AI | Open-weight models
Sparse Expert Modelの効率的設計
- Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文 参考訳(メタデータ) (Thu, 17 Feb 2022 21:39:10 GMT)- 大規模スパースモデルの不安定さを解消、様々なタスクでSoTAとのこと。
- リポジトリはGitHub – tensorflow/mesh: Mesh TensorFlow: Model Parallelism Made Easier
Mixtures of Expertsと高密度モデルの比較
- Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (Mon, 20 Dec 2021 17:05:11 GMT)- 最近よく見る疎なモデル(Mixtures of Experts)と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは?としている。
- MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
- リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub