摩尔线程近日推出了大语言模型高速推理框架vLLM的MUSA移植版本,为开发者提供了基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。
GitHub地址:https://github.com/MooreThreads/vLLM_musa
这一举措进一步推动了摩尔线程围绕自主研发的统一系统架构GPU和MUSA软件平台构建完善的MUSA应用生态。
vLLM概述
vLLM是一个高效且易用的大模型推理和服务框架,支持多种创新特性,包括:
- PagedAttention内存管理:优化内存使用,提高大模型的推理效率。
- 连续批处理请求:支持高效的批量处理,减少延迟。
- CUDA/HIP图的快速模型执行:加速模型的执行速度。
- CUDA核心优化:提升CUDA核心的性能。
- 分布式推理支持:支持多GPU和多节点的分布式推理。
vLLM已在各种大语言模型中得到广泛应用,成为业界常用的开源大模型推理框架。
MUSA移植版本
摩尔线程基于vLLM v0.4.2版本进行了移植适配,使其支持摩尔线程GPU后端Device,并完全开源。开发者可以在此基础上进行二次开发、升级vLLM到社区更新版本等。
移植优势
- 先进性与兼容性:
- MUSA架构:摩尔线程的MUSA架构具有先进的设计,支持高效的并行计算。
- CUDA兼容性:MUSA软件栈对CUDA软件栈接口具有优良的兼容性,使得CUDA代码可以轻松迁移到MUSA平台。
- 自动化工具:
- MUSIFY代码自动转换工具:用户可以快捷地将原有的CUDA代码迁移到MUSA平台,实现替代。
- MUSA加速库:CUDA相关库的调用可以快速替换为相应的MUSA加速库,如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。
- 开发效率:
- 接口兼容:MUSA软件栈对CUDA软件栈接口的兼容性大幅提升了应用移植的效率。
- 实用工具:摩尔线程提供了MUSIFY自动代码移植工具等一系列实用工具和脚本,缩短了开发周期。
应用前景
通过这次移植,摩尔线程不仅为开发者提供了更多的选择,还推动了MUSA生态系统的进一步发展。vLLM MUSA移植版本的发布,使得开发者可以充分利用摩尔线程GPU的强大性能,加速大语言模型的推理和部署。