88 lines
3.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# H200 训练服务器测试框架调研
## 一、官方/行业标准级框架
### 1. NVIDIA DGXC Benchmarking
- GitHub: https://github.com/NVIDIA/dgxc-benchmarking
- NVIDIA 官方 AI 负载基准测试套件
- 提供 Exemplar Certification>95% 基线性能认证)
- 支持 GB300/GB200/B300/B200/H100
- 内置模型: Grok-1、Llama 3.1 70B/405B、Mixtral、Qwen3
- `llmb-run exemplar` 一键跑完整测试套件
- 每 ~2 个月更新 Recipe
### 2. NVIDIA CloudAI Benchmark Framework
- GitHub: https://github.com/NVIDIA/cloudai
- 数据中心级 AI 系统自动化基准测试
- 支持 Slurm / Kubernetes / RunAI 多调度器
- 内置测试: NCCL、MegatronRun、DeepEP、NeMo v2.0、Triton Inference
### 3. Microsoft SuperBench
- GitHub: https://github.com/microsoft/superbenchmark
- 覆盖面最广的一站式 GPU 测试框架
- 微基准测试矩阵:
- GPU Stress: gpu-burn
- 内存带宽: nvbandwidth, gpu-stream, mem-bw
- 计算吞吐: gemm-flops, matmul, cublaslt-gemm, cudnn-function
- 通信带宽: nccl-bw, ib-traffic, gpcnet
- 网络连通: tcp-connectivity, ib-loopback
- CPU: cpu-stream, cpu-hpl
- 推理: ort-inference, tensorrt-inference
### 4. ornn-bench
- PyPI: `pip install ornn-bench`
- 标准化 GPU 评分框架30+ 基准测试
- 自动计算 Ornn-I (推理分) 和 Ornn-T (训练分)
- 评分: Ornn-I = 55×(BW/BW_ref) + 45×(FP8/FP8_ref)
- GPU 等级: Premium / Standard / Below
- 调用 nvbandwidth + nccl-tests + mamf-finder
## 二、NVIDIA 官方基础工具
| 工具 | 地址 | 用途 |
|---|---|---|
| nvbandwidth | github.com/NVIDIA/nvbandwidth | GPU 内存/互连带宽精确测量 (CE/SM 模式) |
| nccl-tests | github.com/NVIDIA/nccl-tests | NCCL 集合通信性能+正确性测试 |
| DCGM | 内置 | GPU 健康、温度、功耗、ECC 持续监控 |
| nvbench | github.com/NVIDIA/nvbench (851★) | CUDA kernel 级微基准 |
| AITune | NVIDIA 开源 | PyTorch 推理自动基准调优 |
| ISV-NCP-Validation-Suite | github.com/NVIDIA/ISV-NCP-Validation-Suite | 云平台验证框架 |
## 三、行业参考方法论
### AMD Instinct 客户验收指南
- https://instinct.docs.amd.com/projects/system-acceptance/en/latest/
- 六步流程:
1. 系统先决条件 — OS/固件/BIOS/GRUB
2. 健康检查 — PCIe 可见性、互连健康、主机内存
3. 系统验证和基准 — 计算、内存、I/O、功耗
4. 网络配置 — NIC 驱动、路由、拓扑映射
5. RDMA 基准 — 带宽和延迟
6. 集群验证 — 多节点测试
### Midokura GPU Server Verification
- https://docs.midokura.com/docs/user/GPU_SERVER_VERIFICATION
- 三步: nvidia-smi + CUDA 检查 → RDMA 验证 → NCCL 正确性
## 四、Google GPU Recipes (H200)
- GitHub: https://github.com/ai-hypercomputer/gpu-recipes
- 已有 H200 Recipe: Llama-3.1-70B/405B on A3 Ultra
- 框架: NeMo / MaxText
## 五、核心工具汇总
### 必选工具
- nvbandwidth — 内存带宽 (替代 PyTorch copy)
- nccl-tests — NCCL 通信 (替代 torchrun 封装)
- gpu-burn — GPU 压力/稳定性测试
### 可选工具
- DCGM — 持续健康监控
- ib_write_bw / ib_read_bw — RDMA 带宽
- CUDA Samples (bandwidthTest, p2pBandwidthLatencyTest)
### 参考框架
- SuperBench — 最全面的一站式测试
- DGXC Benchmarking — 官方验收标准
- ornn-bench — 标准化评分