GPU_Test 双节点测试报告

结论摘要

项目	结果摘要
GPU 识别	两台节点均识别 8 张 H100 80GB HBM3 GPU
单机 FP8 GEMM	两台节点 direct cuBLASLt FP8 GEMM 均超过 1600 TFLOPS
单机 8 卡 NCCL	两台节点单机 8 卡 NCCL 集合通信均可正常完成，主要大包通信带宽稳定
多机 2x8 NCCL	两节点 16 GPU NCCL 正确性通过，所有测试 `Wrong=0` / return code `0`
多机网络口径	当前为 4x400Gbps IB rail 环境，结果按该硬件形态解释

Host	GPU	Driver	CUDA	GPU 数量
`aikubeworker0012`	NVIDIA H100 80GB HBM3	580.159.03	13.0	8
`aikubeworker0016`	NVIDIA H100 80GB HBM3	580.159.03	13.0	8

本项使用 direct cuBLASLt FP8 GEMM benchmark，绕过 PyTorch eager 调度路径，直接验证 GPU FP8 Tensor Core 与 cuBLASLt GEMM 能力。

Host	Mean FP8 TFLOPS	Min	Max	Spread
`aikubeworker0012`	1608.6	1599.0	1615.6	1.03%
`aikubeworker0016`	1613.7	1602.3	1630.3	1.74%

Host	GPU0	GPU1	GPU2	GPU3	GPU4	GPU5	GPU6	GPU7
`aikubeworker0012`	1615.6	1611.0	1599.0	1607.1	1614.0	1604.4	1608.4	1609.1
`aikubeworker0016`	1602.3	1604.0	1616.9	1610.6	1620.5	1630.3	1605.1	1620.2

说明: PyTorch _scaled_mm eager benchmark 结果约为 1170-1180 TFLOPS，该结果反映 PyTorch 软件路径与调度开销，不作为本报告的硬件算力结论。

本项在单个节点内使用 8 张 GPU 进行 NCCL 集合通信测试，结果单位为 GB/s，即 Bytes/s。

说明: 单机 8 卡通信主要依赖节点内 GPU 互联与 NCCL collective 实现。两台节点的同类 operation 结果接近，节点间差异较小。

本项使用两台节点，每台 8 张 GPU，共 16 张 GPU 进行跨节点 NCCL 集合通信测试。

Operation	Peak Bus BW	Avg Bus BW	Correctness
allreduce	354.27 GB/s	354.45 GB/s	PASS
alltoall	37.00 GB/s	37.14 GB/s	PASS
broadcast	191.65 GB/s	190.25 GB/s	PASS
reducescatter	192.75 GB/s	192.74 GB/s	PASS
allgather	192.14 GB/s	192.47 GB/s	PASS
sendrecv	26.98 GB/s	26.97 GB/s	PASS

正确性: 本轮多机 NCCL 测试 return code 为 0，Wrong=0，未发现数据正确性错误。

写法	含义	说明
`GB/s`	Gigabytes per second	大 B，字节每秒，NCCL bus bandwidth 使用此单位
`Gbps` / `Gb/s`	Gigabits per second	小 b，比特每秒，IB 端口速率通常使用此单位

换算关系：

1 Byte = 8 bits
400 Gb/s = 50 GB/s
4 x 400 Gb/s = 1600 Gb/s = 200 GB/s 物理链路字节带宽

NCCL 的 busbw 是 collective 通信的逻辑折算带宽，不等同于单条物理链路的线速。

两台节点 GPU 识别正常，均为 8 张 H100 80GB HBM3。
direct cuBLASLt FP8 GEMM 显示两台节点单卡 FP8 算力均超过 1600 TFLOPS，GPU FP8 硬件计算路径正常。
单机 8 卡 NCCL 通信在两台节点上结果接近，未观察到明显节点间异常差异。
多机 2x8 NCCL 正确性通过，跨节点通信功能正常。
当前多机通信结果应按 4x400Gbps IB rail 环境解释；若后续需要对齐 8x400Gbps 环境，应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。