作为一名长期从事AI模型部署的工程师,最近我在NVIDIA最新的GB300(Blackwell Ultra)平台上对DeepSeek-V3.2和DeepSeek-R1进行了全面的性能测试和优化。通过NVFP4量化技术,我们实现了惊人的性能提升:DeepSeek-R1在EP2配置下Prefill吞吐量达到22476 TGS,混合场景输出吞吐量3072 TGS;DeepSeek-V3.2在TP2配置下Prefill吞吐量7360 TGS。相比上一代Hopper架构,Prefill阶段提升8倍,混合场景提升10-20倍。
我们使用以下硬件和软件配置进行测试:
测试主要关注三类典型场景:
基准测试命令示例:
bash复制vllm bench serve --model nvidia/DeepSeek-R1-0528-NVFP4 \
--seed $RANDOM \
--dataset-name random \
--base-url http://${PROXY_NODE_IP}:8000 \
--tokenizer /mnt/models/DeepSeek-V3.2 \
--num-prompts 1000 \
--max-concurrency $MAX_CONCURRENCY \
--random-input-len $ISL \
--random-output-len $OSL \
--ignore-eos
Blackwell架构最显著的优势是其第五代Tensor Core原生支持NVFP4格式。以下是完整的部署流程:
下载NVFP4模型权重:
启用FlashInfer的FP4 MoE内核:
bash复制export VLLM_USE_FLASHINFER_MOE_FP4=1
bash复制vllm serve nvidia/DeepSeek-V3.2-NVFP4 -tp 2
# 或
vllm serve nvidia/DeepSeek-R1-0528-NVFP4 -tp 2
bash复制# DeepSeek-R1优化配置
--max-num-batched-tokens 32768
# DeepSeek-V3.2优化配置
--max-num-batched-tokens 20480
提示:如需使用FP8,需切换至FP8权重并设置VLLM_USE_FLASHINFER_MOE_FP8=1,此时需要4张GPU(-tp 4)。
在GB300上部署DeepSeek V3.2时,我们发现NVFP4量化带来了显著性能提升:
纯Prefill场景(ISL=2k, OSL=1, batch=64):
混合场景(ISL=2k, OSL=1k):
NVFP4+TP2组合的优势主要来自:
在相同请求配置下,GB300与上一代H200的性能对比:
纯Prefill场景(ISL=2k):
短输出混合场景(ISL=2k, OSL=128):
这种性能飞跃源于Blackwell的多项改进:
对于DeepSeek-R1这类可以放入双GPU显存的模型,我们需要在EP2和TP2之间做出选择:
纯Prefill场景(ISL=2k, OSL=1):
短输出混合场景(ISL=2k, OSL=64):
部署建议:
多token预测(MTP)在某些场景下能提升性能:
bash复制--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1
观察发现:
结论:
在相同GB300配置下,性能对比:
差异主要来自V3.2的架构特性:
值得注意的是:
以下是1P+1D分离部署的配置示例:
Prefill节点:
bash复制export VLLM_USE_FLASHINFER_MOE_FP4=1
export UCX_NET_DEVICES=mlx5_bond_0:1
export VLLM_NIXL_SIDE_CHANNEL_HOST=${PREFILL_NODE_IP}
vllm serve nvidia/DeepSeek-V3.2-NVFP4 -tp 2 --max-num-batched-tokens 20480 \
--kv-transfer-config \
'{"kv_connector":"NixlConnector","kv_role":"kv_both","kv_load_failure_policy":"fail","kv_buffer_device":"cuda"}' \
--port 8000
Decode节点:
bash复制export VLLM_NIXL_SIDE_CHANNEL_HOST=${DECODE_NODE_IP}
# 其他配置与Prefill节点相同
Proxy节点:
bash复制python tests/v1/kv_connector/nixl_integration/toy_proxy_server.py \
--port 8000 \
--prefiller-hosts ${PREFILL_NODE_IP} \
--prefiller-ports 8000 \
--decoder-hosts ${DECODE_NODE_IP} \
--decoder-ports 8000
性能表现:
扩展建议:
在实际部署过程中,我总结了以下关键经验:
权重加载优化:
批处理大小调整:
专家并行调优:
PD分离部署注意事项:
性能监控指标:
常见问题解决方案:
吞吐量不达预期:
高延迟问题:
显存不足:
通过这次在Blackwell平台上的深度实践,我们不仅验证了FP4量化的巨大潜力,也探索出了多种针对不同场景的优化策略。这些经验对于希望在新硬件上部署大模型的团队具有重要参考价值。随着软件生态的不断完善,相信DeepSeek系列模型在Blackwell上的表现还会有更大提升空间。