FP8(8位浮点数)是一种低精度数值表示方法,能够显著减少模型的内存占用和计算开销,同时提升推理速度和能效比。DeepSeek系列模型(如DeepSeek-V3和DeepSeek-R1)原生支持FP8训练和推理,这使得其在部署时能够充分利用FP8的优势。
nvidia什么设备支持fp8
NVIDIA以下设备支持FP8:
- GPU
- H100:基于Hopper架构,其第四代Tensor Core专为AI训练和推理优化,支持FP8、FP16、BF16、TF32和FP64等多种数据精度。在DGX H100系统中,FP8算力达到3.2PFlops(每秒3.2千亿次)。
- A800:A800是A100的阉割版,同样具有Tensor Core,虽然性能上有所削减,但同样支持FP8计算,适用于一些对计算精度有要求,但不需要顶级性能的场景。
- H20:从Nvidia H200裁剪而来,拥有较好的FP8峰值算力,支持FP8混合精度训练,适用于LLM推理以及组建大规模集群用于大模型训练等场景。
- 4090:基于Ada Lovelace架构,其Tensor Core支持FP8计算,能为用户提供高效的FP8运算能力,在游戏、专业图形渲染以及AI相关的一些应用中都能发挥作用。
- 芯片
- Thor:性能强大,达2000TFLOPS,是Orin芯片的8倍、Altan芯片的2倍,支持新的FP8数据格式,能统一运行智能泊车、主动安全等功能,可降低功耗。
以下是关于FP8部署DeepSeek的详细解读:
FP8在DeepSeek中的应用主要体现在以下几个方面:
- 训练与推理加速:FP8通过降低精度(从FP16/BF16到FP8),减少了内存占用和计算开销,同时提升了推理速度和能效比。DeepSeek-V3和DeepSeek-R1在训练和推理中均支持FP8,尤其是在大规模模型(如671B参数)的部署中,FP8显著降低了硬件资源需求。
- 硬件支持:FP8需要特定硬件支持,如NVIDIA Hopper架构GPU或AMD Instinct加速卡。DeepSeek的FP8部署已在NVIDIA H800、AMD RX 7000系列显卡等硬件上实现优化。
- 量化方式:DeepSeek在FP8训练中采用了细粒度的量化方法,如groupwise和tilewise量化,以平衡精度和性能。例如,输入按groupwise量化,权重按tilewise量化,从而在保证模型性能的同时减少量化误差。
FP8部署DeepSeek的具体步骤因硬件平台不同而有所差异,以下是主要平台的部署方法:
- 权重转换:将FP8模型权重转换为BF16精度,以便在NVIDIA GPU上运行。可以使用以下命令:
–转换项目文件git地址python fp8_cast_bf16.py --input-fp8-hf-path /path/to/DeepSeek-V3 --output-bf16-hf-path /path/to/deepseek-v3-bf16
- 推理服务启动:使用SGLang等推理框架启动FP8模型服务。例如:
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code
启动后,可通过API调用模型进行推理。
- 驱动安装:下载并安装AMD Adrenalin 25.1.1测试版驱动,确保硬件支持FP8计算。
- 模型加载:使用LM Studio等工具加载DeepSeek模型,并调整“GPU Offload”参数以优化性能。例如,RX 7900 XTX可支持32B参数的模型。
- 推理服务启动:通过AMD ROCm平台启动FP8模型服务,支持完整的671B参数推理。
- 权重转换:将FP8模型权重转换为BF16精度,适用于昇腾硬件平台:
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/DeepSeek-V3 --output-bf16-hf-path /path/to/deepseek-v3-bf16
- 镜像加载与容器启动:下载并加载适配DeepSeek-V3的MindIE镜像,启动容器并部署模型。
- 服务化测试:配置服务化环境变量,启动推理服务并测试性能。
- 性能提升:FP8在相同硬件平台上的峰值性能超越FP16和BF16,理论估计可带来两倍性能提升,同时功耗更低。
- 内存占用减少:FP8的数值位数比FP16和BF16更少,有效降低了内存占用和通信开销。
- 硬件兼容性:DeepSeek的FP8部署已适配NVIDIA、AMD、华为昇腾等多种硬件平台,支持大规模模型的本地化部署。
- 硬件限制:FP8需要特定硬件支持(如NVIDIA Hopper或AMD Instinct),普通GPU可能无法充分发挥FP8的优势。
- 量化误差:FP8的精度较低,可能导致计算误差累积,影响模型收敛性和最终性能。DeepSeek通过细粒度量化(如groupwise和tilewise)缓解了这一问题。
- 部署复杂度:FP8部署涉及权重转换、硬件适配和推理框架配置,对开发者的技术要求较高。
- 硬件优化:未来硬件(如NVIDIA下一代Tensor Core)有望支持更细粒度的量化方式,进一步提升FP8的计算效率和精度。
- 国产算力崛起:随着国产GPU(如华为昇腾、摩尔线程)对FP8的支持,DeepSeek的FP8部署将更加普及,推动AI推理国产化。
- 应用场景扩展:FP8的低成本和高效能使其在边缘计算、工业场景等领域具有广阔的应用前景。
FP8部署DeepSeek是一种高效、低成本的模型部署方式,适用于大规模AI模型的训练和推理。通过硬件适配、权重转换和推理框架优化,开发者可以在NVIDIA、AMD、华为昇腾等平台上实现FP8模型的快速部署。未来,随着硬件技术的进步和国产算力的崛起,FP8部署将成为AI模型部署的重要方向。
原文链接:https://blog.csdn.net/weixin_40941102/article/details/145548547?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522385b9d2595f03344d9319ff8fac8de83%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=385b9d2595f03344d9319ff8fac8de83&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-23-145548547-null-null.nonecase&utm_term=deepseek%E5%91%BD%E4%BB%A4