88 lines
3.3 KiB
Markdown
88 lines
3.3 KiB
Markdown
# H200 训练服务器测试框架调研
|
||
|
||
## 一、官方/行业标准级框架
|
||
|
||
### 1. NVIDIA DGXC Benchmarking
|
||
- GitHub: https://github.com/NVIDIA/dgxc-benchmarking
|
||
- NVIDIA 官方 AI 负载基准测试套件
|
||
- 提供 Exemplar Certification(>95% 基线性能认证)
|
||
- 支持 GB300/GB200/B300/B200/H100
|
||
- 内置模型: Grok-1、Llama 3.1 70B/405B、Mixtral、Qwen3
|
||
- `llmb-run exemplar` 一键跑完整测试套件
|
||
- 每 ~2 个月更新 Recipe
|
||
|
||
### 2. NVIDIA CloudAI Benchmark Framework
|
||
- GitHub: https://github.com/NVIDIA/cloudai
|
||
- 数据中心级 AI 系统自动化基准测试
|
||
- 支持 Slurm / Kubernetes / RunAI 多调度器
|
||
- 内置测试: NCCL、MegatronRun、DeepEP、NeMo v2.0、Triton Inference
|
||
|
||
### 3. Microsoft SuperBench
|
||
- GitHub: https://github.com/microsoft/superbenchmark
|
||
- 覆盖面最广的一站式 GPU 测试框架
|
||
- 微基准测试矩阵:
|
||
- GPU Stress: gpu-burn
|
||
- 内存带宽: nvbandwidth, gpu-stream, mem-bw
|
||
- 计算吞吐: gemm-flops, matmul, cublaslt-gemm, cudnn-function
|
||
- 通信带宽: nccl-bw, ib-traffic, gpcnet
|
||
- 网络连通: tcp-connectivity, ib-loopback
|
||
- CPU: cpu-stream, cpu-hpl
|
||
- 推理: ort-inference, tensorrt-inference
|
||
|
||
### 4. ornn-bench
|
||
- PyPI: `pip install ornn-bench`
|
||
- 标准化 GPU 评分框架,30+ 基准测试
|
||
- 自动计算 Ornn-I (推理分) 和 Ornn-T (训练分)
|
||
- 评分: Ornn-I = 55×(BW/BW_ref) + 45×(FP8/FP8_ref)
|
||
- GPU 等级: Premium / Standard / Below
|
||
- 调用 nvbandwidth + nccl-tests + mamf-finder
|
||
|
||
## 二、NVIDIA 官方基础工具
|
||
|
||
| 工具 | 地址 | 用途 |
|
||
|---|---|---|
|
||
| nvbandwidth | github.com/NVIDIA/nvbandwidth | GPU 内存/互连带宽精确测量 (CE/SM 模式) |
|
||
| nccl-tests | github.com/NVIDIA/nccl-tests | NCCL 集合通信性能+正确性测试 |
|
||
| DCGM | 内置 | GPU 健康、温度、功耗、ECC 持续监控 |
|
||
| nvbench | github.com/NVIDIA/nvbench (851★) | CUDA kernel 级微基准 |
|
||
| AITune | NVIDIA 开源 | PyTorch 推理自动基准调优 |
|
||
| ISV-NCP-Validation-Suite | github.com/NVIDIA/ISV-NCP-Validation-Suite | 云平台验证框架 |
|
||
|
||
## 三、行业参考方法论
|
||
|
||
### AMD Instinct 客户验收指南
|
||
- https://instinct.docs.amd.com/projects/system-acceptance/en/latest/
|
||
- 六步流程:
|
||
1. 系统先决条件 — OS/固件/BIOS/GRUB
|
||
2. 健康检查 — PCIe 可见性、互连健康、主机内存
|
||
3. 系统验证和基准 — 计算、内存、I/O、功耗
|
||
4. 网络配置 — NIC 驱动、路由、拓扑映射
|
||
5. RDMA 基准 — 带宽和延迟
|
||
6. 集群验证 — 多节点测试
|
||
|
||
### Midokura GPU Server Verification
|
||
- https://docs.midokura.com/docs/user/GPU_SERVER_VERIFICATION
|
||
- 三步: nvidia-smi + CUDA 检查 → RDMA 验证 → NCCL 正确性
|
||
|
||
## 四、Google GPU Recipes (H200)
|
||
- GitHub: https://github.com/ai-hypercomputer/gpu-recipes
|
||
- 已有 H200 Recipe: Llama-3.1-70B/405B on A3 Ultra
|
||
- 框架: NeMo / MaxText
|
||
|
||
## 五、核心工具汇总
|
||
|
||
### 必选工具
|
||
- nvbandwidth — 内存带宽 (替代 PyTorch copy)
|
||
- nccl-tests — NCCL 通信 (替代 torchrun 封装)
|
||
- gpu-burn — GPU 压力/稳定性测试
|
||
|
||
### 可选工具
|
||
- DCGM — 持续健康监控
|
||
- ib_write_bw / ib_read_bw — RDMA 带宽
|
||
- CUDA Samples (bandwidthTest, p2pBandwidthLatencyTest)
|
||
|
||
### 参考框架
|
||
- SuperBench — 最全面的一站式测试
|
||
- DGXC Benchmarking — 官方验收标准
|
||
- ornn-bench — 标准化评分
|