From 8f7539d9b04b6b5fca380e01e650efaa63031839 Mon Sep 17 00:00:00 2001 From: qinyusen Date: Sat, 25 Apr 2026 17:24:06 +0800 Subject: [PATCH] add: research notes on GPU server testing frameworks and tools Co-authored-by: Sisyphus --- 调研.md | 87 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 87 insertions(+) create mode 100644 调研.md diff --git a/调研.md b/调研.md new file mode 100644 index 0000000..c7ce7cd --- /dev/null +++ b/调研.md @@ -0,0 +1,87 @@ +# H200 训练服务器测试框架调研 + +## 一、官方/行业标准级框架 + +### 1. NVIDIA DGXC Benchmarking +- GitHub: https://github.com/NVIDIA/dgxc-benchmarking +- NVIDIA 官方 AI 负载基准测试套件 +- 提供 Exemplar Certification(>95% 基线性能认证) +- 支持 GB300/GB200/B300/B200/H100 +- 内置模型: Grok-1、Llama 3.1 70B/405B、Mixtral、Qwen3 +- `llmb-run exemplar` 一键跑完整测试套件 +- 每 ~2 个月更新 Recipe + +### 2. NVIDIA CloudAI Benchmark Framework +- GitHub: https://github.com/NVIDIA/cloudai +- 数据中心级 AI 系统自动化基准测试 +- 支持 Slurm / Kubernetes / RunAI 多调度器 +- 内置测试: NCCL、MegatronRun、DeepEP、NeMo v2.0、Triton Inference + +### 3. Microsoft SuperBench +- GitHub: https://github.com/microsoft/superbenchmark +- 覆盖面最广的一站式 GPU 测试框架 +- 微基准测试矩阵: + - GPU Stress: gpu-burn + - 内存带宽: nvbandwidth, gpu-stream, mem-bw + - 计算吞吐: gemm-flops, matmul, cublaslt-gemm, cudnn-function + - 通信带宽: nccl-bw, ib-traffic, gpcnet + - 网络连通: tcp-connectivity, ib-loopback + - CPU: cpu-stream, cpu-hpl + - 推理: ort-inference, tensorrt-inference + +### 4. ornn-bench +- PyPI: `pip install ornn-bench` +- 标准化 GPU 评分框架,30+ 基准测试 +- 自动计算 Ornn-I (推理分) 和 Ornn-T (训练分) +- 评分: Ornn-I = 55×(BW/BW_ref) + 45×(FP8/FP8_ref) +- GPU 等级: Premium / Standard / Below +- 调用 nvbandwidth + nccl-tests + mamf-finder + +## 二、NVIDIA 官方基础工具 + +| 工具 | 地址 | 用途 | +|---|---|---| +| nvbandwidth | github.com/NVIDIA/nvbandwidth | GPU 内存/互连带宽精确测量 (CE/SM 模式) | +| nccl-tests | github.com/NVIDIA/nccl-tests | NCCL 集合通信性能+正确性测试 | +| DCGM | 内置 | GPU 健康、温度、功耗、ECC 持续监控 | +| nvbench | github.com/NVIDIA/nvbench (851★) | CUDA kernel 级微基准 | +| AITune | NVIDIA 开源 | PyTorch 推理自动基准调优 | +| ISV-NCP-Validation-Suite | github.com/NVIDIA/ISV-NCP-Validation-Suite | 云平台验证框架 | + +## 三、行业参考方法论 + +### AMD Instinct 客户验收指南 +- https://instinct.docs.amd.com/projects/system-acceptance/en/latest/ +- 六步流程: + 1. 系统先决条件 — OS/固件/BIOS/GRUB + 2. 健康检查 — PCIe 可见性、互连健康、主机内存 + 3. 系统验证和基准 — 计算、内存、I/O、功耗 + 4. 网络配置 — NIC 驱动、路由、拓扑映射 + 5. RDMA 基准 — 带宽和延迟 + 6. 集群验证 — 多节点测试 + +### Midokura GPU Server Verification +- https://docs.midokura.com/docs/user/GPU_SERVER_VERIFICATION +- 三步: nvidia-smi + CUDA 检查 → RDMA 验证 → NCCL 正确性 + +## 四、Google GPU Recipes (H200) +- GitHub: https://github.com/ai-hypercomputer/gpu-recipes +- 已有 H200 Recipe: Llama-3.1-70B/405B on A3 Ultra +- 框架: NeMo / MaxText + +## 五、核心工具汇总 + +### 必选工具 +- nvbandwidth — 内存带宽 (替代 PyTorch copy) +- nccl-tests — NCCL 通信 (替代 torchrun 封装) +- gpu-burn — GPU 压力/稳定性测试 + +### 可选工具 +- DCGM — 持续健康监控 +- ib_write_bw / ib_read_bw — RDMA 带宽 +- CUDA Samples (bandwidthTest, p2pBandwidthLatencyTest) + +### 参考框架 +- SuperBench — 最全面的一站式测试 +- DGXC Benchmarking — 官方验收标准 +- ornn-bench — 标准化评分