test_gpu_scripts/reports_gpu_Test_formal_20260524.md

4.9 KiB
Raw Blame History

GPU_Test 双节点测试报告

  • 测试日期: 2026-05-24
  • 测试节点: aikubeworker0012 / 172.72.8.12aikubeworker0016 / 172.72.8.16
  • 节点配置: 每节点 8 张 NVIDIA H100 80GB HBM3 GPU
  • 测试范围: 单机算力、单机 8 卡通信、多机 2x8 GPU 通信
  • 网络形态: 当前参与 NCCL 的计算网络为 4 条 400Gbps IB rail

结论摘要

项目 结果摘要
GPU 识别 两台节点均识别 8 张 H100 80GB HBM3 GPU
单机 FP8 GEMM 两台节点 direct cuBLASLt FP8 GEMM 均超过 1600 TFLOPS
单机 8 卡 NCCL 两台节点单机 8 卡 NCCL 集合通信均可正常完成,主要大包通信带宽稳定
多机 2x8 NCCL 两节点 16 GPU NCCL 正确性通过,所有测试 Wrong=0 / return code 0
多机网络口径 当前为 4x400Gbps IB rail 环境,结果按该硬件形态解释

测试环境

Host GPU Driver CUDA GPU 数量
aikubeworker0012 NVIDIA H100 80GB HBM3 580.159.03 13.0 8
aikubeworker0016 NVIDIA H100 80GB HBM3 580.159.03 13.0 8

单机算力测试

FP8 GEMM 硬件路径验证

本项使用 direct cuBLASLt FP8 GEMM benchmark绕过 PyTorch eager 调度路径,直接验证 GPU FP8 Tensor Core 与 cuBLASLt GEMM 能力。

参数 配置
GEMM shape 8192 x 8192 x 8192
输入类型 FP8 E4M3
输出类型 BF16
累加类型 FP32 compute
Layout TN
Scale scale_a = 1.0scale_b = 1.0
fast accumulation enabled
测试 GPU 每节点 8 张 GPU 逐张测试
Host Mean FP8 TFLOPS Min Max Spread
aikubeworker0012 1608.6 1599.0 1615.6 1.03%
aikubeworker0016 1613.7 1602.3 1630.3 1.74%
Host GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7
aikubeworker0012 1615.6 1611.0 1599.0 1607.1 1614.0 1604.4 1608.4 1609.1
aikubeworker0016 1602.3 1604.0 1616.9 1610.6 1620.5 1630.3 1605.1 1620.2

说明: PyTorch _scaled_mm eager benchmark 结果约为 1170-1180 TFLOPS该结果反映 PyTorch 软件路径与调度开销,不作为本报告的硬件算力结论。

单机 8 卡 NCCL 通信测试

本项在单个节点内使用 8 张 GPU 进行 NCCL 集合通信测试,结果单位为 GB/s,即 Bytes/s。

Operation aikubeworker0012 Bus BW aikubeworker0016 Bus BW
allreduce 472.3 GB/s 472.4 GB/s
alltoall 343.3 GB/s 344.3 GB/s
broadcast 364.1 GB/s 363.6 GB/s
reducescatter 352.8 GB/s 353.1 GB/s
allgather 366.4 GB/s 366.4 GB/s
sendrecv 369.0 GB/s 368.9 GB/s

说明: 单机 8 卡通信主要依赖节点内 GPU 互联与 NCCL collective 实现。两台节点的同类 operation 结果接近,节点间差异较小。

多机 2x8 NCCL 通信测试

本项使用两台节点,每台 8 张 GPU共 16 张 GPU 进行跨节点 NCCL 集合通信测试。

网络环境

项目 配置
Host A aikubeworker0012 / 172.72.8.12
Host B aikubeworker0016 / 172.72.8.16
拓扑 2 nodes x 8 GPUs
NCCL network IB
GPU Direct RDMA ENABLED
Active rails mlx5_0, mlx5_1, mlx5_6, mlx5_7
Rail 速率 4 条 400 Gb/sec (4X NDR) ACTIVE

跨节点 NCCL 结果

Operation Peak Bus BW Avg Bus BW Correctness
allreduce 354.27 GB/s 354.45 GB/s PASS
alltoall 37.00 GB/s 37.14 GB/s PASS
broadcast 191.65 GB/s 190.25 GB/s PASS
reducescatter 192.75 GB/s 192.74 GB/s PASS
allgather 192.14 GB/s 192.47 GB/s PASS
sendrecv 26.98 GB/s 26.97 GB/s PASS

正确性: 本轮多机 NCCL 测试 return code 为 0Wrong=0,未发现数据正确性错误。

单位说明

写法 含义 说明
GB/s Gigabytes per second 大 B字节每秒NCCL bus bandwidth 使用此单位
Gbps / Gb/s Gigabits per second 小 b比特每秒IB 端口速率通常使用此单位

换算关系:

1 Byte = 8 bits
400 Gb/s = 50 GB/s
4 x 400 Gb/s = 1600 Gb/s = 200 GB/s 物理链路字节带宽

NCCL 的 busbw 是 collective 通信的逻辑折算带宽,不等同于单条物理链路的线速。

结果说明

  1. 两台节点 GPU 识别正常,均为 8 张 H100 80GB HBM3。
  2. direct cuBLASLt FP8 GEMM 显示两台节点单卡 FP8 算力均超过 1600 TFLOPSGPU FP8 硬件计算路径正常。
  3. 单机 8 卡 NCCL 通信在两台节点上结果接近,未观察到明显节点间异常差异。
  4. 多机 2x8 NCCL 正确性通过,跨节点通信功能正常。
  5. 当前多机通信结果应按 4x400Gbps IB rail 环境解释;若后续需要对齐 8x400Gbps 环境,应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。