# GPU_Test 双节点测试报告 - **测试日期:** 2026-05-24 - **测试节点:** `aikubeworker0012 / 172.72.8.12`,`aikubeworker0016 / 172.72.8.16` - **节点配置:** 每节点 8 张 NVIDIA H100 80GB HBM3 GPU - **测试范围:** 单机算力、单机 8 卡通信、多机 2x8 GPU 通信 - **网络形态:** 当前参与 NCCL 的计算网络为 4 条 400Gbps IB rail ## 结论摘要 | 项目 | 结果摘要 | |---|---| | GPU 识别 | 两台节点均识别 8 张 H100 80GB HBM3 GPU | | 单机 FP8 GEMM | 两台节点 direct cuBLASLt FP8 GEMM 均超过 1600 TFLOPS | | 单机 8 卡 NCCL | 两台节点单机 8 卡 NCCL 集合通信均可正常完成,主要大包通信带宽稳定 | | 多机 2x8 NCCL | 两节点 16 GPU NCCL 正确性通过,所有测试 `Wrong=0` / return code `0` | | 多机网络口径 | 当前为 4x400Gbps IB rail 环境,结果按该硬件形态解释 | ## 测试环境 | Host | GPU | Driver | CUDA | GPU 数量 | |---|---|---|---|---:| | `aikubeworker0012` | NVIDIA H100 80GB HBM3 | 580.159.03 | 13.0 | 8 | | `aikubeworker0016` | NVIDIA H100 80GB HBM3 | 580.159.03 | 13.0 | 8 | ## 单机算力测试 ### FP8 GEMM 硬件路径验证 本项使用 direct cuBLASLt FP8 GEMM benchmark,绕过 PyTorch eager 调度路径,直接验证 GPU FP8 Tensor Core 与 cuBLASLt GEMM 能力。 | 参数 | 配置 | |---|---| | GEMM shape | `8192 x 8192 x 8192` | | 输入类型 | FP8 E4M3 | | 输出类型 | BF16 | | 累加类型 | FP32 compute | | Layout | TN | | Scale | `scale_a = 1.0`,`scale_b = 1.0` | | fast accumulation | enabled | | 测试 GPU | 每节点 8 张 GPU 逐张测试 | | Host | Mean FP8 TFLOPS | Min | Max | Spread | |---|---:|---:|---:|---:| | `aikubeworker0012` | 1608.6 | 1599.0 | 1615.6 | 1.03% | | `aikubeworker0016` | 1613.7 | 1602.3 | 1630.3 | 1.74% | | Host | GPU0 | GPU1 | GPU2 | GPU3 | GPU4 | GPU5 | GPU6 | GPU7 | |---|---:|---:|---:|---:|---:|---:|---:|---:| | `aikubeworker0012` | 1615.6 | 1611.0 | 1599.0 | 1607.1 | 1614.0 | 1604.4 | 1608.4 | 1609.1 | | `aikubeworker0016` | 1602.3 | 1604.0 | 1616.9 | 1610.6 | 1620.5 | 1630.3 | 1605.1 | 1620.2 | **说明:** PyTorch `_scaled_mm` eager benchmark 结果约为 1170-1180 TFLOPS,该结果反映 PyTorch 软件路径与调度开销,不作为本报告的硬件算力结论。 ## 单机 8 卡 NCCL 通信测试 本项在单个节点内使用 8 张 GPU 进行 NCCL 集合通信测试,结果单位为 `GB/s`,即 Bytes/s。 | Operation | `aikubeworker0012` Bus BW | `aikubeworker0016` Bus BW | |---|---:|---:| | allreduce | 472.3 GB/s | 472.4 GB/s | | alltoall | 343.3 GB/s | 344.3 GB/s | | broadcast | 364.1 GB/s | 363.6 GB/s | | reducescatter | 352.8 GB/s | 353.1 GB/s | | allgather | 366.4 GB/s | 366.4 GB/s | | sendrecv | 369.0 GB/s | 368.9 GB/s | **说明:** 单机 8 卡通信主要依赖节点内 GPU 互联与 NCCL collective 实现。两台节点的同类 operation 结果接近,节点间差异较小。 ## 多机 2x8 NCCL 通信测试 本项使用两台节点,每台 8 张 GPU,共 16 张 GPU 进行跨节点 NCCL 集合通信测试。 ### 网络环境 | 项目 | 配置 | |---|---| | Host A | `aikubeworker0012 / 172.72.8.12` | | Host B | `aikubeworker0016 / 172.72.8.16` | | 拓扑 | 2 nodes x 8 GPUs | | NCCL network | IB | | GPU Direct RDMA | ENABLED | | Active rails | `mlx5_0, mlx5_1, mlx5_6, mlx5_7` | | Rail 速率 | 4 条 `400 Gb/sec (4X NDR)` ACTIVE | ### 跨节点 NCCL 结果 | Operation | Peak Bus BW | Avg Bus BW | Correctness | |---|---:|---:|---| | allreduce | 354.27 GB/s | 354.45 GB/s | PASS | | alltoall | 37.00 GB/s | 37.14 GB/s | PASS | | broadcast | 191.65 GB/s | 190.25 GB/s | PASS | | reducescatter | 192.75 GB/s | 192.74 GB/s | PASS | | allgather | 192.14 GB/s | 192.47 GB/s | PASS | | sendrecv | 26.98 GB/s | 26.97 GB/s | PASS | **正确性:** 本轮多机 NCCL 测试 return code 为 `0`,`Wrong=0`,未发现数据正确性错误。 ## 单位说明 | 写法 | 含义 | 说明 | |---|---|---| | `GB/s` | Gigabytes per second | 大 B,字节每秒,NCCL bus bandwidth 使用此单位 | | `Gbps` / `Gb/s` | Gigabits per second | 小 b,比特每秒,IB 端口速率通常使用此单位 | 换算关系: ```text 1 Byte = 8 bits 400 Gb/s = 50 GB/s 4 x 400 Gb/s = 1600 Gb/s = 200 GB/s 物理链路字节带宽 ``` NCCL 的 `busbw` 是 collective 通信的逻辑折算带宽,不等同于单条物理链路的线速。 ## 结果说明 1. 两台节点 GPU 识别正常,均为 8 张 H100 80GB HBM3。 2. direct cuBLASLt FP8 GEMM 显示两台节点单卡 FP8 算力均超过 1600 TFLOPS,GPU FP8 硬件计算路径正常。 3. 单机 8 卡 NCCL 通信在两台节点上结果接近,未观察到明显节点间异常差异。 4. 多机 2x8 NCCL 正确性通过,跨节点通信功能正常。 5. 当前多机通信结果应按 4x400Gbps IB rail 环境解释;若后续需要对齐 8x400Gbps 环境,应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。