test_gpu_scripts/doc/调研.md

3.3 KiB
Raw Blame History

H200 训练服务器测试框架调研

一、官方/行业标准级框架

1. NVIDIA DGXC Benchmarking

  • GitHub: https://github.com/NVIDIA/dgxc-benchmarking
  • NVIDIA 官方 AI 负载基准测试套件
  • 提供 Exemplar Certification>95% 基线性能认证)
  • 支持 GB300/GB200/B300/B200/H100
  • 内置模型: Grok-1、Llama 3.1 70B/405B、Mixtral、Qwen3
  • llmb-run exemplar 一键跑完整测试套件
  • 每 ~2 个月更新 Recipe

2. NVIDIA CloudAI Benchmark Framework

  • GitHub: https://github.com/NVIDIA/cloudai
  • 数据中心级 AI 系统自动化基准测试
  • 支持 Slurm / Kubernetes / RunAI 多调度器
  • 内置测试: NCCL、MegatronRun、DeepEP、NeMo v2.0、Triton Inference

3. Microsoft SuperBench

  • GitHub: https://github.com/microsoft/superbenchmark
  • 覆盖面最广的一站式 GPU 测试框架
  • 微基准测试矩阵:
    • GPU Stress: gpu-burn
    • 内存带宽: nvbandwidth, gpu-stream, mem-bw
    • 计算吞吐: gemm-flops, matmul, cublaslt-gemm, cudnn-function
    • 通信带宽: nccl-bw, ib-traffic, gpcnet
    • 网络连通: tcp-connectivity, ib-loopback
    • CPU: cpu-stream, cpu-hpl
    • 推理: ort-inference, tensorrt-inference

4. ornn-bench

  • PyPI: pip install ornn-bench
  • 标准化 GPU 评分框架30+ 基准测试
  • 自动计算 Ornn-I (推理分) 和 Ornn-T (训练分)
  • 评分: Ornn-I = 55×(BW/BW_ref) + 45×(FP8/FP8_ref)
  • GPU 等级: Premium / Standard / Below
  • 调用 nvbandwidth + nccl-tests + mamf-finder

二、NVIDIA 官方基础工具

工具 地址 用途
nvbandwidth github.com/NVIDIA/nvbandwidth GPU 内存/互连带宽精确测量 (CE/SM 模式)
nccl-tests github.com/NVIDIA/nccl-tests NCCL 集合通信性能+正确性测试
DCGM 内置 GPU 健康、温度、功耗、ECC 持续监控
nvbench github.com/NVIDIA/nvbench (851★) CUDA kernel 级微基准
AITune NVIDIA 开源 PyTorch 推理自动基准调优
ISV-NCP-Validation-Suite github.com/NVIDIA/ISV-NCP-Validation-Suite 云平台验证框架

三、行业参考方法论

AMD Instinct 客户验收指南

  • https://instinct.docs.amd.com/projects/system-acceptance/en/latest/
  • 六步流程:
    1. 系统先决条件 — OS/固件/BIOS/GRUB
    2. 健康检查 — PCIe 可见性、互连健康、主机内存
    3. 系统验证和基准 — 计算、内存、I/O、功耗
    4. 网络配置 — NIC 驱动、路由、拓扑映射
    5. RDMA 基准 — 带宽和延迟
    6. 集群验证 — 多节点测试

Midokura GPU Server Verification

四、Google GPU Recipes (H200)

五、核心工具汇总

必选工具

  • nvbandwidth — 内存带宽 (替代 PyTorch copy)
  • nccl-tests — NCCL 通信 (替代 torchrun 封装)
  • gpu-burn — GPU 压力/稳定性测试

可选工具

  • DCGM — 持续健康监控
  • ib_write_bw / ib_read_bw — RDMA 带宽
  • CUDA Samples (bandwidthTest, p2pBandwidthLatencyTest)

参考框架

  • SuperBench — 最全面的一站式测试
  • DGXC Benchmarking — 官方验收标准
  • ornn-bench — 标准化评分