4.8 KiB
4.8 KiB
GPU_Test 双节点测试报告
- 测试日期: 2026-05-24
- 测试节点:
aikubeworker0012 / 172.72.8.12,aikubeworker0016 / 172.72.8.16 - 节点配置: 每节点 8 张 NVIDIA H100 80GB HBM3 GPU
- 测试范围: 单机算力、单机 8 卡通信、多机 2x8 GPU 通信
- 网络形态: 当前参与 NCCL 的计算网络为 4 条 400Gbps IB rail
结论摘要
| 项目 | 结果摘要 |
|---|---|
| GPU 识别 | 两台节点均识别 8 张 H100 80GB HBM3 GPU |
| 单机 FP8 GEMM | 两台节点 direct cuBLASLt FP8 GEMM 均超过 1600 TFLOPS |
| 单机 8 卡 NCCL | 两台节点单机 8 卡 NCCL 集合通信均可正常完成,主要大包通信带宽稳定 |
| 多机 2x8 NCCL | 两节点 16 GPU NCCL 正确性通过,所有测试 Wrong=0 / return code 0 |
| 多机网络口径 | 当前为 4x400Gbps IB rail 环境,结果按该硬件形态解释 |
测试环境
| Host | GPU | Driver | CUDA | GPU 数量 |
|---|---|---|---|---|
aikubeworker0012 |
NVIDIA H100 80GB HBM3 | 580.159.03 | 13.0 | 8 |
aikubeworker0016 |
NVIDIA H100 80GB HBM3 | 580.159.03 | 13.0 | 8 |
单机算力测试
FP8 GEMM 硬件路径验证
本项使用 direct cuBLASLt FP8 GEMM benchmark,绕过 PyTorch eager 调度路径,直接验证 GPU FP8 Tensor Core 与 cuBLASLt GEMM 能力。
| 参数 | 配置 |
|---|---|
| GEMM shape | 8192 x 8192 x 8192 |
| 输入类型 | FP8 E4M3 |
| 输出类型 | BF16 |
| 累加类型 | FP32 compute |
| Layout | TN |
| Scale | scale_a = 1.0,scale_b = 1.0 |
| fast accumulation | enabled |
| 测试 GPU | 每节点 8 张 GPU 逐张测试 |
| Host | Mean FP8 TFLOPS | Min | Max | Spread |
|---|---|---|---|---|
aikubeworker0012 |
1608.6 | 1599.0 | 1615.6 | 1.03% |
aikubeworker0016 |
1613.7 | 1602.3 | 1630.3 | 1.74% |
| Host | GPU0 | GPU1 | GPU2 | GPU3 | GPU4 | GPU5 | GPU6 | GPU7 |
|---|---|---|---|---|---|---|---|---|
aikubeworker0012 |
1615.6 | 1611.0 | 1599.0 | 1607.1 | 1614.0 | 1604.4 | 1608.4 | 1609.1 |
aikubeworker0016 |
1602.3 | 1604.0 | 1616.9 | 1610.6 | 1620.5 | 1630.3 | 1605.1 | 1620.2 |
说明: PyTorch _scaled_mm eager benchmark 结果约为 1170-1180 TFLOPS,该结果反映 PyTorch 软件路径与调度开销,不作为本报告的硬件算力结论。
单机 8 卡 NCCL 通信测试
本项在单个节点内使用 8 张 GPU 进行 NCCL 集合通信测试,结果单位为 GB/s,即 Bytes/s。
| Operation | aikubeworker0012 Bus BW |
aikubeworker0016 Bus BW |
|---|---|---|
| allreduce | 472.3 GB/s | 472.4 GB/s |
| alltoall | 343.3 GB/s | 344.3 GB/s |
| broadcast | 364.1 GB/s | 363.6 GB/s |
| reducescatter | 352.8 GB/s | 353.1 GB/s |
| allgather | 366.4 GB/s | 366.4 GB/s |
| sendrecv | 369.0 GB/s | 368.9 GB/s |
说明: 单机 8 卡通信主要依赖节点内 GPU 互联与 NCCL collective 实现。两台节点的同类 operation 结果接近,节点间差异较小。
多机 2x8 NCCL 通信测试
本项使用两台节点,每台 8 张 GPU,共 16 张 GPU 进行跨节点 NCCL 集合通信测试。
网络环境
| 项目 | 配置 |
|---|---|
| Host A | aikubeworker0012 / 172.72.8.12 |
| Host B | aikubeworker0016 / 172.72.8.16 |
| 拓扑 | 2 nodes x 8 GPUs |
| NCCL network | IB |
| GPU Direct RDMA | ENABLED |
| Active rails | mlx5_0, mlx5_1, mlx5_6, mlx5_7 |
| Rail 速率 | 4 条 400 Gb/sec (4X NDR) ACTIVE |
跨节点 NCCL 结果
| Operation | Peak Bus BW | Avg Bus BW | Correctness |
|---|---|---|---|
| allreduce | 354.27 GB/s | 354.45 GB/s | PASS |
| alltoall | 37.00 GB/s | 37.14 GB/s | PASS |
| broadcast | 191.65 GB/s | 190.25 GB/s | PASS |
| reducescatter | 192.75 GB/s | 192.74 GB/s | PASS |
| allgather | 192.14 GB/s | 192.47 GB/s | PASS |
| sendrecv | 26.98 GB/s | 26.97 GB/s | PASS |
正确性: 本轮多机 NCCL 测试 return code 为 0,Wrong=0,未发现数据正确性错误。
单位说明
| 写法 | 含义 | 说明 |
|---|---|---|
GB/s |
Gigabytes per second | 大 B,字节每秒,NCCL bus bandwidth 使用此单位 |
Gbps / Gb/s |
Gigabits per second | 小 b,比特每秒,IB 端口速率通常使用此单位 |
换算关系:
1 Byte = 8 bits
400 Gb/s = 50 GB/s
4 x 400 Gb/s = 1600 Gb/s = 200 GB/s 物理链路字节带宽
NCCL 的 busbw 是 collective 通信的逻辑折算带宽,不等同于单条物理链路的线速。
结果说明
- 两台节点 GPU 识别正常,均为 8 张 H100 80GB HBM3。
- direct cuBLASLt FP8 GEMM 显示两台节点单卡 FP8 算力均超过 1600 TFLOPS,GPU FP8 硬件计算路径正常。
- 单机 8 卡 NCCL 通信在两台节点上结果接近,未观察到明显节点间异常差异。
- 多机 2x8 NCCL 正确性通过,跨节点通信功能正常。
- 当前多机通信结果应按 4x400Gbps IB rail 环境解释;若后续需要对齐 8x400Gbps 环境,应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。