test_gpu_scripts/reports_gpu_Test_combined_20260524.md

7.4 KiB
Raw Blame History

GPU_Test 合并报告

  • 日期: 2026-05-24
  • 节点: aikubeworker0012 / 172.72.8.12aikubeworker0016 / 172.72.8.16
  • GPU: NVIDIA H100 80GB HBM3 x8 / node
  • 范围: 单机单卡算力与多机多卡 NCCL 通信
  • 说明: 本报告汇总既有原始测试结果,不重新启动额外压力测试。

总体结论

测试项 结论 说明
单机 GPU 识别 PASS 两台机器均识别 8 张 H100 80GB HBM3
单机单卡 FP8 硬件算力 PASS direct cuBLASLt FP8 GEMM 两台机器均超过 >= 1400 TFLOPS
PyTorch _scaled_mm FP8 路径 FAIL / 软件栈信号 1170-1180 TFLOPS,低于阈值;已定位为 PyTorch eager / _scaled_mm benchmark 路径偏低,不作为硬件失败依据
多机多卡 NCCL 正确性 PASS return code 0Wrong=0 / Out of bounds values: 0 OK
多机多卡 NCCL 性能 符合当前 4x400Gbps 网络形态 2x8 allreduce / alltoall 低于 PDF 8x400Gbps 阈值,但该阈值不应直接硬套到当前 4x400Gbps 环境

单机单卡 / 算力测试

机器信息

Host GPU Driver CUDA GPU 数量
aikubeworker0012 NVIDIA H100 80GB HBM3 580.159.03 13.0 8
aikubeworker0016 NVIDIA H100 80GB HBM3 580.159.03 13.0 8

来源:

  • reports_single_gpu_aikubeworker0012.md
  • reports_single_gpu_aikubeworker0016.md

原始 PyTorch 单机算力结果

Host FP32 TF32 FP16 BF16 FP8 _scaled_mm 原始 Verdict
aikubeworker0012 52.0 362.3 691.0 713.0 1148.8 FAIL
aikubeworker0016 51.9 357.8 667.2 699.1 1146.2 FAIL

原始 PyTorch 路径使用 torch._scaled_mm 做 FP8 GEMM。后续复查显示该路径会受到 PyTorch eager dispatch、输出 Tensor 创建、cuBLASLt heuristic 路径、默认 use_fast_accum=False 等因素影响,不能直接代表 H100 FP8 Tensor Core 硬件上限。

direct cuBLASLt FP8 GEMM 交叉验证

测试参数:

参数
Benchmark direct cuBLASLt FP8 GEMM
Source scripts/cublaslt_fp8_gemm_bench.cu
Matrix 8192 x 8192 x 8192
A/B dtype FP8 E4M3
Output dtype BF16
Compute type CUBLAS_COMPUTE_32F
Scale type CUDA_R_32F
Scale A/B 1.0
Layout TN
fast accumulation enabled
Threshold >= 1400 TFLOPS

结果:

Host Mean FP8 TFLOPS Min Max Spread Threshold Verdict
aikubeworker0012 1608.6 1599.0 1615.6 1.03% >= 1400 PASS
aikubeworker0016 1613.7 1602.3 1630.3 1.74% >= 1400 PASS

单卡逐张结果:

Host GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7
aikubeworker0012 1615.6 1611.0 1599.0 1607.1 1614.0 1604.4 1608.4 1609.1
aikubeworker0016 1602.3 1604.0 1616.9 1610.6 1620.5 1630.3 1605.1 1620.2

结论direct cuBLASLt FP8 GEMM 已通过 >= 1400 TFLOPS 阈值,说明两台机器的 FP8 硬件计算路径具备达标能力。PyTorch _scaled_mm 的 FAIL 更适合作为软件栈 benchmark 路径问题记录,而不是 GPU 硬件失败结论。

来源:

  • reports_cublaslt_fp8_crosscheck_20260524.md
  • reports_cublaslt_fp8_gemm_aikubeworker0012_20260524_071148.json
  • reports_cublaslt_fp8_gemm_aikubeworker0016_20260524_071200.json

多机多卡 NCCL 测试

测试环境

项目 结果
Hosts nccl-gpu-1(172.72.8.12)nccl-gpu-2(172.72.8.16)
Topology 2 nodes x 8 GPUs合计 16 GPUs
NCCL source nccl-tests-mpirun
NCCL network IB
GPU Direct RDMA ENABLED
Active HCA rails mlx5_0, mlx5_1, mlx5_6, mlx5_7
HCA speed 4 条 400 Gb/sec (4X NDR) ACTIVE

注意NCCL 表里的 GB/s 是大 B即 Bytes/s。IB 网卡口径 400 Gb/s 是小 b即 bits/s。

2x8 全集合通信结果

Operation Peak Bus BW Avg Bus BW PDF 8x400Gbps Threshold Correctness 当前 4x400Gbps 口径
allreduce 354.27 GB/s 354.45 GB/s >= 491.84 GB/s PASS 符合当前硬件形态,低于 PDF 8 rail 阈值
alltoall 37.00 GB/s 37.14 GB/s >= 76.54 GB/s PASS 符合当前硬件形态,低于 PDF 8 rail 阈值
broadcast 191.65 GB/s 190.25 GB/s 未配置 PDF 阈值 PASS PASS / 仅记录
reducescatter 192.75 GB/s 192.74 GB/s 未配置 PDF 阈值 PASS PASS / 仅记录
allgather 192.14 GB/s 192.47 GB/s 未配置 PDF 阈值 PASS PASS / 仅记录
sendrecv 26.98 GB/s 26.97 GB/s 未配置 PDF 阈值 PASS PASS / 仅记录

结论2x8 全集合通信测试中NCCL 正确性通过。allreduce 和 alltoall 低于 PDF 8x400Gbps 参考阈值,但当前机器确认参与 NCCL 的是 4 条 400Gbps rail因此该差距不应直接判定为当前 4x400Gbps 环境不合格。

来源:

  • reports_multinode_nccl_all_collectives_20260523_120144.md
  • reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md

PDF Matrix allreduce / alltoall 结果

AllReducePDF 8x400Gbps 阈值对比,仅作参考):

Topology Peak Bus BW Avg Bus BW PDF 8x400Gbps Threshold Gap 当前解释
2 nodes x 1 GPU 47.29 GB/s 47.26 GB/s >= 48.90 GB/s -1.61 GB/s 接近 PDF 阈值
2 nodes x 2 GPUs 137.16 GB/s 137.13 GB/s >= 136.93 GB/s +0.23 GB/s 达到 PDF 阈值
2 nodes x 4 GPUs 335.07 GB/s 335.02 GB/s >= 335.48 GB/s -0.41 GB/s 接近 PDF 阈值
2 nodes x 8 GPUs 353.85 GB/s 353.85 GB/s >= 491.84 GB/s -137.99 GB/s 低于 PDF 8 rail 阈值;当前为 4 rail 环境,不直接判不合格

AllToAllPDF 8x400Gbps 阈值对比,仅作参考):

Topology Peak Bus BW Avg Bus BW PDF 8x400Gbps Threshold Gap 当前解释
2 nodes x 1 GPU 24.85 GB/s 24.90 GB/s >= 27.25 GB/s -2.40 GB/s 接近 PDF 阈值
2 nodes x 2 GPUs 47.76 GB/s 47.98 GB/s >= 54.41 GB/s -6.65 GB/s 低于 PDF 8 rail 阈值
2 nodes x 4 GPUs 72.74 GB/s 72.80 GB/s >= 73.73 GB/s -0.99 GB/s 接近 PDF 阈值
2 nodes x 8 GPUs 36.83 GB/s 36.85 GB/s >= 76.54 GB/s -39.71 GB/s 低于 PDF 8 rail 阈值;当前为 4 rail 环境,不直接判不合格

来源:

  • reports_multinode_nccl_pdf_matrix_run_20260523.md
  • reports_multinode_nccl_pdf_matrix_20260523_113803.md

风险与判断

  1. 单机 FP8 硬件能力通过 direct cuBLASLt 验证,当前不支持将 PyTorch _scaled_mm FAIL 直接判定为 GPU 硬件故障。
  2. 多机 NCCL 正确性通过,性能结果应按当前 4x400Gbps rail 环境解释。
  3. 当前多机环境确认参与 NCCL 的是 4 条 400G IB railPDF 参考环境为 8x400G 计算管理网络,因此 2x8 阈值与当前硬件形态不等价。
  4. 2x8 allreduce 和 alltoall 低于 PDF 8 rail 阈值,建议作为“与 PDF 参考环境差异”记录,而不是作为当前 4 rail 环境不合格结论。

建议

  1. 单机 FP8 验收以 direct cuBLASLt 或 Transformer Engine GEMM benchmark 为主PyTorch _scaled_mm 作为软件栈参考项保留。
  2. 多机 NCCL 后续若要按 PDF 阈值验收,需要先对齐 PDF 参考环境的 8x400Gbps rail 数量、NCCL net plugin / SHARP、跨 Leaf 交换策略、ECMP / 拥塞控制配置。
  3. 对外报告建议明确区分 GB/sGb/sNCCL bus bandwidth 是大 BIB 端口速率是小 b。