aikubeworker0016 `test all` 中文结果与 H100 验收差距

测试命令：

/root/gpu-test-venv/bin/python gpu_tester.py --test all --report --format json --output reports_all/test_all.json

测试机器：aikubeworker0016 / 172.72.8.16

原始结果：reports_all_aikubeworker0016.json

先说结论

项目输出里最后显示 Suite complete: 8/8 tests passed，但这个结论不能直接当成生产验收 PASS。

原因是当前 all 的汇总逻辑主要看模块有没有抛 error，没有把 nccl.passed=false 和 rdma.passed=false 当成整套失败。因此按 PDF 的生产验收口径，这台机器目前不能算完整验收通过。

模块	当前结果	关键数据	按 PDF 验收看
GPU 信息	已覆盖	8 张 H100，Driver 580.159.03，CUDA 13.0	基础信息 OK，但 NVLink 链路专项不足
健康检查	PASS	health.passed=true	基础健康 OK，但缺 retired pages、AER/Replay、fabricmanager 日志、stress 期间采样
Memory	有结果	H2D 55.5 GB/s，D2H 55.3 GB/s，D2D 486.5 GB/s	单项看起来不错，但缺 8x8 P2P 矩阵验收
Compute	有结果	FP32 51.9，TF32 357.0，FP16 664.0，BF16 700.1，FP8 1116.2 TFLOPS	对 PDF 绝对门槛不全通过
NCCL	实际不合格	source=torchrun_fallback，`nccl.passed=false`，无 bus BW 性能数据	不满足 PDF NCCL 性能验收
Stress	PASS	PyTorch fallback，60 秒，8 GPU 状态 PASS	不满足 PDF 的 30/60 分钟 burn-in；负载只有约 64MB/卡，压力明显不够
RDMA/IB	实际不合格	ib_write_bw/read_bw 0.13 GB/s WARN；write_lat 4.10us PASS；read_lat 16us WARN	当前是 localhost 单节点口径，不满足 PDF RDMA 生产验收
Training	有结果	synthetic 1.47B，52471 tokens/s，peak 27.31GB，loss 0.0041	tokens/s 过线，但代码实际不是 8 卡分布式训练验收

PDF H100 PASS 门槛：

DType	本次结果	PDF PASS 门槛	判断
FP32	51.9 TFLOPS	>= 54	WARN
TF32	357.0 TFLOPS	>= 444	FAIL
FP16	664.0 TFLOPS	>= 734	WARN
BF16	700.1 TFLOPS	>= 745	WARN
FP8	1116.2 TFLOPS	>= 1400	FAIL
FP64	未测	>= 63	缺失
INT8	未测	>= 1536	缺失

说明：PDF 里 WARN 区间是 PASS 门槛的 90%-100%。TF32 和 FP8 低于 90% 门槛，所以按 PDF 是 FAIL。

少 NVLink 专项验收：没有逐卡检查 18 条链路、25GB/s 速率、CRC/Replay/Recovery error = 0。
少 DCGM 诊断：没有 dcgmi diag -r 3。
少长时间 burn-in：当前是 60 秒，不是 30/60 分钟。
少 stress 期间 1 秒级采样：温度、功耗、throttle、XID、TFLOPS 抖动都没按 PDF 统计。
少真正 NCCL 性能：当前退化到 torchrun fallback，没有 nccl-tests bus BW。
少 NCCL 全操作和三档消息：PDF 要 AllReduce/AllGather/ReduceScatter/Broadcast/SendRecv/AllToAll，且 1MB/256MB/2GB 都过线。
少 NCCL 重复 3 次取最差值和标准差 <=3%。
少完整 P2P 8x8 矩阵：没有非对角均值、最小值、偏差判断。
少逐 GPU compute 一致性：没有真正分别测 8 卡同 dtype 极差/均值 <=3%。
少 FP64 和 INT8。
少 RDMA 生产口径：当前 localhost，64KB message，阈值 10us；PDF 要 4MB BW、8B latency、write/read >=47GB/s、write_lat <=2us、read_lat <=3.5us。
少 PFC/ECN 错误计数和 ibping 双向。
少真正 8 卡分布式 Training Simulation 验收。
少严格最终 verdict：当前代码会把 passed=false 的模块也计入“通过”，这是验收逻辑漏洞。

test all 可以继续作为快速初筛跑，但如果目标是对齐 H100_production_acceptance.pdf，需要把它升级成“生产验收模式”。优先级如下：