三千预算本地 70b 大模型 V2ex
三千预算本地 70b 大模型 - V2EX
- URL: 原文
- Added At: 2025-01-03 05:32:42
- Link To Text
TL;DR
本文总结了一台机器的硬件和软件配置,以及其在不同模型下的性能测试结果。测试结果显示,AMD Instinct MI50 的性能不如预期,尤其是在大模型推理和并发性能方面。与 NVIDIA 2080 Ti 相比,MI50 的性能较差,尤其是在小模型推理和并发性能方面。文章还指出,MI50 的显存大小和带宽不足,导致性能瓶颈。此外,ROCm 的支持不足,也导致了软件兼容性问题。
Summary
- 硬件配置:
- 显卡:三张 AMD Instinct MI50,单精算力 13 TFLOPS,显存 16G HBM 2,带宽 1TB/s
- CPU:E5-2666V3,10 核心 20 线程,全核睿频 3.2 GHz
- 内存:128G DDR3 RDIMM
- 主板:精粤 X99-TI D3 PLUS
- 固态硬盘:凯侠 XG6 1TB
- 电源:玄武 500k ATX 电源 + DELL 750W 服务器电源
- 机架:开放式机架
- 软件配置:
- 操作系统:PVE
- 容器:LXC
- 显卡驱动:AMDGPU
- ROCm 版本:6.2.4
- 编译工具:llama.cpp
- 性能测试:
- Llama 3.3 70b:prefill 52.73 t/s,decode 11.56 t/s
- Qwen 2.5 72b:prefill 75.72 t/s,decode 9.85 t/s
- QwQ Preview 32b:prefill 141.30 t/s,decode 20.65 t/s
- Dolphin Mistral Nemo 12b:prefill 482.98 t/s,decode 35.92 t/s
- 并发性能测试:
- Llama 3.3 70b:B=1,prefill 74.46 t/s,decode 10.26 t/s;B=2,prefill 78.58 t/s,decode 13.07 t/s;B=4,prefill 76.52 t/s,decode 12.13 t/s
- Dolphin Mistral Nemo 12b:B=1,prefill 493.28 t/s,decode 33.45 t/s;B=2,prefill 474.35 t/s,decode 49.12 t/s;B=4,prefill 442.91 t/s,decode 55.89 t/s;B=8,prefill 393.13 t/s,decode 47.56 t/s
- QwQ Preview 32b:B=1,prefill 140.37 t/s,decode 17.80 t/s;B=2,prefill 142.07 t/s,decode 26.88 t/s;B=4,prefill 136.37 t/s,decode 32.62 t/s;B=8,prefill 126.70 t/s,decode 9.75 t/s
- 结论:
- MI50 的性能不如预期,尤其是在大模型推理和并发性能方面
- 2080 Ti 的性能优于 MI50,尤其是在小模型推理和并发性能方面
- MI50 的显存大小和带宽不足,导致性能瓶颈
- ROCm 的支持不足,导致软件兼容性问题