摩尔线程发布vLLM MUSA移植版本,加速大语言模型推理

摩尔线程近日推出了大语言模型高速推理框架vLLM的MUSA移植版本,为开发者提供了基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。

GitHub地址:https://github.com/MooreThreads/vLLM_musa

这一举措进一步推动了摩尔线程围绕自主研发的统一系统架构GPU和MUSA软件平台构建完善的MUSA应用生态。

vLLM概述

vLLM是一个高效且易用的大模型推理和服务框架,支持多种创新特性,包括:

  • PagedAttention内存管理:优化内存使用,提高大模型的推理效率。
  • 连续批处理请求:支持高效的批量处理,减少延迟。
  • CUDA/HIP图的快速模型执行:加速模型的执行速度。
  • CUDA核心优化:提升CUDA核心的性能。
  • 分布式推理支持:支持多GPU和多节点的分布式推理。

vLLM已在各种大语言模型中得到广泛应用,成为业界常用的开源大模型推理框架。

MUSA移植版本

摩尔线程基于vLLM v0.4.2版本进行了移植适配,使其支持摩尔线程GPU后端Device,并完全开源。开发者可以在此基础上进行二次开发、升级vLLM到社区更新版本等。

移植优势
  1. 先进性与兼容性
    • MUSA架构:摩尔线程的MUSA架构具有先进的设计,支持高效的并行计算。
    • CUDA兼容性:MUSA软件栈对CUDA软件栈接口具有优良的兼容性,使得CUDA代码可以轻松迁移到MUSA平台。
  2. 自动化工具
    • MUSIFY代码自动转换工具:用户可以快捷地将原有的CUDA代码迁移到MUSA平台,实现替代。
    • MUSA加速库:CUDA相关库的调用可以快速替换为相应的MUSA加速库,如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。
  3. 开发效率
    • 接口兼容:MUSA软件栈对CUDA软件栈接口的兼容性大幅提升了应用移植的效率。
    • 实用工具:摩尔线程提供了MUSIFY自动代码移植工具等一系列实用工具和脚本,缩短了开发周期。

应用前景

通过这次移植,摩尔线程不仅为开发者提供了更多的选择,还推动了MUSA生态系统的进一步发展。vLLM MUSA移植版本的发布,使得开发者可以充分利用摩尔线程GPU的强大性能,加速大语言模型的推理和部署。

我们将24小时内回复。
取消