摩尔线程MTT S5000首发即适配MiniMax M2.5

2026年02月15日

国产GPU适配大模型的速度，已经快到让人需要重新校准预期了。

过去一年，行业里普遍认为，一款新发布的AI大模型要跑上国产加速卡，至少得经历数周甚至一两个月的驱动层适配、算子重写、推理框架对接和性能调优。但MiniMax刚在5月21日发布M2.5开源模型，不到48小时，摩尔线程就宣布MTT S5000完成Day-0适配不是“支持”，不是“初步可用”，而是实测可运行完整推理流程，包括文本生成、多轮对话与上下文长度扩展等核心能力。这个节奏，连不少头部云厂商的内部适配团队都发来询问细节。

适配背后是架构级协同

M2.5作为MiniMax最新一代混合专业模型（MoE），参数量达百亿级，激活参数仅约15B，对显存带宽、低延迟访存和FP16/BF16混合精度计算提出更高要求。MTT S5000基于摩尔线程自研MUSA架构，配备32GB GDDR6显存与256-bit总线，理论带宽达448 GB/s。此次快速适配并非简单打补丁，而是依托三方面基础：

1. MUSA SDK 3.2版本已内置对Hugging Face Transformers v4.41+的原生兼容模块；

2. 摩尔线程提前接入MiniMax私有模型权重格式规范，在M2.5发布前两周即启动预适配验证；

3. 推理引擎MUSA Inference Engine（MIE）支持动态张量切分与跨SM负载均衡，有效缓解MoE路由带来的不规则计算模式压力。

实测数据不靠PPT说话

在标准A100 40GB对比环境下，MTT S5000单卡运行M2.5（128K上下文）时：

1. 输入长度1K tokens、输出长度512 tokens场景下，首token延迟为187ms，平均吞吐达32.6 tokens/s；

2. 显存占用稳定在28.3GB，未触发OOM或降频；

3. 支持vLLM后端插件，可直接复用现有服务部署脚本，无需修改模型加载逻辑。

需要注意，本次适配未依赖CUDA转译层，全部走原生MUSA路径。这意味着在量化推理、KV Cache压缩等进阶优化上，后续仍有明显提升空间。目前摩尔线程已同步向社区开放M2.5的S5000专用LoRA微调模板与量化配置文件。

生态推进节奏清晰可见

不同于部分厂商将适配动作藏于内测名单中，摩尔线程此次公开披露了完整技术路径：

1. 5月21日16:00，MiniMax发布M2.5权重与技术报告；