专家混合（MoE）模型：机器学习领域的突破与前沿发展

在机器学习的世界里，专家混合（MoE）模型正成为一颗冉冉升起的新星。它们以其独特的处理方式，为大规模模型提供了一种高效的解决方案。与传统的密集模型不同，MoE模型在推理过程中只激活一小部分参数，这种设计在计算效率和可扩展性之间找到了平衡点。

MoE模型的工作原理

MoE模型通过激活较少的参数来提高效率，同时保持较大的总参数数量。这种设计虽然增加了架构的复杂性，但也为开发者和研究人员提供了更大的灵活性。

MoE模型的探索

接下来，我们将聚焦于一些已发布的大型MoE模型，分析它们的架构、能力和性能。这些模型参数数量均超过1000亿，并且都是公开可用的。我们的分析将按照发布日期顺序进行，并参考2024年11月4日的LMSYS排行榜数据。

Google的Switch-C Transformer

2022 年 11 月在 Hugging Face 发布，拥有 1.6 万亿总参数，由 2048 个专家支持。尽管是早期创新者，但 Switch - C 在现代基准测试（如 LMSYS）中未排名，已显过时。不过，它作为基础 MoE 模型意义重大，对后续创新有持续影响。其较小变体也已推出，为实验提供了更易入手的途径。

地址：https://huggingface.co/google/switch-c-2048

发布时间：2022年11月
总参数：1.6万亿
专家数量：2048
特点：作为MoE领域的先驱，尽管现在已略显过时，但Switch-C Transformer依然对后续创新有着重要影响。

X AI的Grok-1

2024 年 3 月发布，总参数 3140 亿，推理时激活 860 亿参数。与之前模型不同，它使用 8 个专家，每次推理任务仅激活 2 个。其 8k 上下文长度适合中等长度输入序列，但与新模型相比竞争力不足。Grok - 1 采用有限且在 LMSYS 未排名，不过其后续版本 Grok - 2 在初步基准测试中表现出潜力，虽未公开发布，但在特定 LMSYS 任务中排第五，或许未来迭代会重新定义 MoE 领域性能基准。

地址：https://huggingface.co/xai-org/grok-1

发布时间：2024年3月
总参数：3140亿
激活参数：860亿
专家数量：8
特点：Grok-1的后续版本Grok-2在初步基准测试中显示出潜力，尽管尚未公开发布。

Databricks的DBRX

2024 年 3 月底发布，总参数 1320 亿，推理时 360 亿参数激活，分布在 16 个专家中。32k 的上下文长度远超同期许多模型，能高效处理长输入序列。它支持多个后端，是开发者的多功能之选。但在 LMSYS 上排名总体第 90 位、英语硬提示第 78 位，质量和采用方面还有改进空间。

地址：https://huggingface.co/databricks/dbrx-instruct

发布时间：2024年3月底
总参数：1320亿
激活参数：360亿
专家数量：16
特点：DBRX以其32k的上下文长度在处理长输入序列方面表现出色。

Mistral AI的Mixtral 8x22b

2024 年 4 月发布，总参数 1410 亿，推理时激活 390 亿参数。有 8 个专家，根据输入动态选择其中 2 个。64k 的上下文长度使其适合大量输入处理任务。在 LMSYS 上排名总体第 70 位、硬提示第 66 位，性能中等，不过与多个后端的兼容性保障了在不同平台的可用性。

地址：https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

发布时间：2024年4月
总参数：1410亿
激活参数：390亿
专家数量：8
特点：Mixtral 8x22b以其64k的上下文长度，适合处理大量输入。

Snowflake的Arctic

2024 年 4 月发布，总参数 4800 亿，推理时仅激活 170 亿参数。独特设计结合了稀疏（70 亿）和密集（100 亿）组件，分布在 128 个专家中。但性能不佳，在 LMSYS 上总体排名第 99 位、硬提示第 101 位，4k 有限的上下文长度也限制了其适用性，虽架构创新但竞争力弱。

地址：https://huggingface.co/Snowflake/snowflake-arctic-instruct

发布时间：2024年4月
总参数：4800亿
激活参数：170亿
专家数量：128
特点：Arctic结合了稀疏和密集组件，但性能和上下文长度限制了其竞争力。

天工的Skywork-MoE

2024 年 6 月发布，总参数 1460 亿，推理时激活 220 亿参数，使用 16 个专家。8k 上下文长度支持中等长度任务，不过没有 LMSYS 排名，表明测试或采用有限，目前只有基础模型，承诺的聊天变体尚未发布。

地址：https://huggingface.co/Skywork/Skywork-MoE-Base

发布时间：2024年6月
总参数：1460亿
激活参数：220亿
专家数量：16
特点：Skywork-MoE支持中等长度任务，但测试和采用有限。

AI21 Labs的Jamba 1.5 Large

2024 年 8 月发布，是结合 MoE 和 mamba - transformer 架构的混合模型，总参数 3980 亿，激活参数 980 亿，256k 的上下文长度适合大量输入处理任务。在 LMSYS 上排名高，总体第 34 位、硬提示第 28 位，在上下文基准测试（特别是 RULER 上下文基准测试）表现出色，巩固了其在长上下文任务中的声誉。

地址：https://huggingface.co/ai21labs/AI21-Jamba-1.5-Large

发布时间：2024年8月
总参数：3980亿
激活参数：980亿
特点：Jamba 1.5 Large在LMSYS排行榜上表现出色，特别适合长上下文任务。

DeepSeek V2.5

2024 年 9 月发布，目前在 MoE 领域性能领先。总参数 2360 亿，推理时激活 210 亿参数。架构含 160 个专家，通过特定选择方式有 8 个激活参数。128k 的上下文长度使其长上下文任务能力强，在 LMSYS 上总体第 18 位、硬提示第 6 位，超过所有可用 MoE 模型，早期的 DeepSeek V2 为其成功奠定了基础。

地址：https://huggingface.co/deepseek-ai/DeepSeek-V2.5

发布时间：2024年9月
总参数：2360亿
激活参数：210亿
特点：DeepSeek V2.5在MoE领域中性能领先，特别是在长上下文任务中。

腾讯的Hunyuan Large

2024 年 11 月发布，总参数 3890 亿，激活参数 520 亿，独特设计使推理时只有 2 个激活参数。128k 的上下文长度与 DeepSeek V2.5 相同，是有力竞争者，虽尚未在 LMSYS 排名，但早期迹象显示其性能可能与 DeepSeek 相当甚至超越。

地址：https://huggingface.co/tencent/Tencent-Hunyuan-Large

发布时间：2024年11月
总参数：3890亿
激活参数：520亿
特点：Hunyuan Large以其128k的上下文长度，成为DeepSeek V2.5的有力竞争者。

MoE模型代表了AI领域的一个不断发展的前沿，它们为多样化的应用提供了可扩展和高效的解决方案。随着技术的不断进步，我们期待MoE模型能够带来更多的创新，推动AI的发展边界。

专家混合（MoE）模型：机器学习领域的突破与前沿发展

相关文章