专家混合(MoE)模型:机器学习领域的突破与前沿发展

在机器学习的世界里,专家混合(MoE)模型正成为一颗冉冉升起的新星。它们以其独特的处理方式,为大规模模型提供了一种高效的解决方案。与传统的密集模型不同,MoE模型在推理过程中只激活一小部分参数,这种设计在计算效率和可扩展性之间找到了平衡点。

MoE模型的工作原理

MoE模型通过激活较少的参数来提高效率,同时保持较大的总参数数量。这种设计虽然增加了架构的复杂性,但也为开发者和研究人员提供了更大的灵活性。

MoE模型的探索

接下来,我们将聚焦于一些已发布的大型MoE模型,分析它们的架构、能力和性能。这些模型参数数量均超过1000亿,并且都是公开可用的。我们的分析将按照发布日期顺序进行,并参考2024年11月4日的LMSYS排行榜数据。

  1. Google的Switch-C Transformer

2022 年 11 月在 Hugging Face 发布,拥有 1.6 万亿总参数,由 2048 个专家支持。尽管是早期创新者,但 Switch - C 在现代基准测试(如 LMSYS)中未排名,已显过时。不过,它作为基础 MoE 模型意义重大,对后续创新有持续影响。其较小变体也已推出,为实验提供了更易入手的途径。

地址:https://huggingface.co/google/switch-c-2048

  • 发布时间:2022年11月
  • 总参数:1.6万亿
  • 专家数量:2048
  • 特点:作为MoE领域的先驱,尽管现在已略显过时,但Switch-C Transformer依然对后续创新有着重要影响。
  1. X AI的Grok-1

2024 年 3 月发布,总参数 3140 亿,推理时激活 860 亿参数。与之前模型不同,它使用 8 个专家,每次推理任务仅激活 2 个。其 8k 上下文长度适合中等长度输入序列,但与新模型相比竞争力不足。Grok - 1 采用有限且在 LMSYS 未排名,不过其后续版本 Grok - 2 在初步基准测试中表现出潜力,虽未公开发布,但在特定 LMSYS 任务中排第五,或许未来迭代会重新定义 MoE 领域性能基准。

地址:https://huggingface.co/xai-org/grok-1

  • 发布时间:2024年3月
  • 总参数:3140亿
  • 激活参数:860亿
  • 专家数量:8
  • 特点:Grok-1的后续版本Grok-2在初步基准测试中显示出潜力,尽管尚未公开发布。
  1. Databricks的DBRX

2024 年 3 月底发布,总参数 1320 亿,推理时 360 亿参数激活,分布在 16 个专家中。32k 的上下文长度远超同期许多模型,能高效处理长输入序列。它支持多个后端,是开发者的多功能之选。但在 LMSYS 上排名总体第 90 位、英语硬提示第 78 位,质量和采用方面还有改进空间。

地址:https://huggingface.co/databricks/dbrx-instruct

  • 发布时间:2024年3月底
  • 总参数:1320亿
  • 激活参数:360亿
  • 专家数量:16
  • 特点:DBRX以其32k的上下文长度在处理长输入序列方面表现出色。
  1. Mistral AI的Mixtral 8x22b

2024 年 4 月发布,总参数 1410 亿,推理时激活 390 亿参数。有 8 个专家,根据输入动态选择其中 2 个。64k 的上下文长度使其适合大量输入处理任务。在 LMSYS 上排名总体第 70 位、硬提示第 66 位,性能中等,不过与多个后端的兼容性保障了在不同平台的可用性。

地址:https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

  • 发布时间:2024年4月
  • 总参数:1410亿
  • 激活参数:390亿
  • 专家数量:8
  • 特点:Mixtral 8x22b以其64k的上下文长度,适合处理大量输入。
  1. Snowflake的Arctic

2024 年 4 月发布,总参数 4800 亿,推理时仅激活 170 亿参数。独特设计结合了稀疏(70 亿)和密集(100 亿)组件,分布在 128 个专家中。但性能不佳,在 LMSYS 上总体排名第 99 位、硬提示第 101 位,4k 有限的上下文长度也限制了其适用性,虽架构创新但竞争力弱。

地址:https://huggingface.co/Snowflake/snowflake-arctic-instruct

  • 发布时间:2024年4月
  • 总参数:4800亿
  • 激活参数:170亿
  • 专家数量:128
  • 特点:Arctic结合了稀疏和密集组件,但性能和上下文长度限制了其竞争力。
  1. 天工的Skywork-MoE

2024 年 6 月发布,总参数 1460 亿,推理时激活 220 亿参数,使用 16 个专家。8k 上下文长度支持中等长度任务,不过没有 LMSYS 排名,表明测试或采用有限,目前只有基础模型,承诺的聊天变体尚未发布。

地址:https://huggingface.co/Skywork/Skywork-MoE-Base

  • 发布时间:2024年6月
  • 总参数:1460亿
  • 激活参数:220亿
  • 专家数量:16
  • 特点:Skywork-MoE支持中等长度任务,但测试和采用有限。
  1. AI21 Labs的Jamba 1.5 Large

2024 年 8 月发布,是结合 MoE 和 mamba - transformer 架构的混合模型,总参数 3980 亿,激活参数 980 亿,256k 的上下文长度适合大量输入处理任务。在 LMSYS 上排名高,总体第 34 位、硬提示第 28 位,在上下文基准测试(特别是 RULER 上下文基准测试)表现出色,巩固了其在长上下文任务中的声誉。

地址:https://huggingface.co/ai21labs/AI21-Jamba-1.5-Large

  • 发布时间:2024年8月
  • 总参数:3980亿
  • 激活参数:980亿
  • 特点:Jamba 1.5 Large在LMSYS排行榜上表现出色,特别适合长上下文任务。
  1. DeepSeek V2.5

2024 年 9 月发布,目前在 MoE 领域性能领先。总参数 2360 亿,推理时激活 210 亿参数。架构含 160 个专家,通过特定选择方式有 8 个激活参数。128k 的上下文长度使其长上下文任务能力强,在 LMSYS 上总体第 18 位、硬提示第 6 位,超过所有可用 MoE 模型,早期的 DeepSeek V2 为其成功奠定了基础。

地址:https://huggingface.co/deepseek-ai/DeepSeek-V2.5

  • 发布时间:2024年9月
  • 总参数:2360亿
  • 激活参数:210亿
  • 特点:DeepSeek V2.5在MoE领域中性能领先,特别是在长上下文任务中。
  1. 腾讯的Hunyuan Large

2024 年 11 月发布,总参数 3890 亿,激活参数 520 亿,独特设计使推理时只有 2 个激活参数。128k 的上下文长度与 DeepSeek V2.5 相同,是有力竞争者,虽尚未在 LMSYS 排名,但早期迹象显示其性能可能与 DeepSeek 相当甚至超越。

地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

  • 发布时间:2024年11月
  • 总参数:3890亿
  • 激活参数:520亿
  • 特点:Hunyuan Large以其128k的上下文长度,成为DeepSeek V2.5的有力竞争者。

MoE模型代表了AI领域的一个不断发展的前沿,它们为多样化的应用提供了可扩展和高效的解决方案。随着技术的不断进步,我们期待MoE模型能够带来更多的创新,推动AI的发展边界。