cs 211140e7f1 Add H100 acceptance PR summary

2026-05-23 20:37:19 +08:00

5.1 KiB

Raw Blame History

H100 验收分支 PR 摘要 2026-05-23

建议 PR 标题

Add H100 acceptance evidence, multinode NCCL runs, and handoff reports

PR 结论

本 PR 完成 H100 验收测试侧的阶段性交付：脚本、单节点报告、多节点 NCCL 报告、RDMA 证据、artifacts、checksum、中文说明和交接文档已经齐备。

但本 PR 不表示生产验收通过。当前两台 H100 节点按现有 PDF/配置口径仍为 FAIL，需要网络/硬件/环境侧完成回填或修复后再复跑。

变更范围

测试入口

新增/完善单节点 H100 test all 入口。
新增多节点 NCCL PDF matrix 复跑入口。
新增多节点 2x8 六项 collective 复跑入口。
新增 NCCL 深度诊断和环境快照入口。

配置

固定 NCCL 2.27.7 / nccl-tests 路径的多节点 PDF matrix 配置。
新增 2x8 六项 collective 配置。
allreduce/alltoall 保留已知 PDF 2x8 阈值；新增的 broadcast/reducescatter/allgather/sendrecv 暂按证据采集处理。

报告和证据

单节点 test all 中文汇总。
跨节点 RDMA mlx5_0 双向证据。
多节点 NCCL PDF matrix 中文摘要、原始报告、artifacts manifest。
多节点 2x8 六项 collective 中文摘要、原始报告、artifacts manifest。
NCCL artifact 信号分析、环境等价性分析、handoff 计划、收尾清单。
网络/硬件/环境侧闭环请求和交付包 manifest。

当前验收状态

范围	结论	说明
单节点 `test all`	FAIL	两台均 `6/10 PASS`；Compute、NCCL、Stress、RDMA 未过
跨节点 RDMA	FAIL	write BW PASS；read BW 和 latency 未达阈值
多节点 NCCL PDF matrix	FAIL	8 个 case 仅 2x2 allreduce 性能 PASS；所有 case 正确性 OK
多节点 2x8 六项 collective	FAIL / evidence complete	6 项正确性 OK；allreduce/alltoall 按 PDF 阈值 FAIL
环境等价性	未证明	当前每节点只有 4 条 400G rail，缺外部 NCCL net plugin / SHARP 证据

关键结果

单节点

aikubeworker0012: 6/10 PASS, PDF acceptance FAIL
aikubeworker0016: 6/10 PASS, PDF acceptance FAIL

跨节点 RDMA

ib_write_bw: 48.38-49.35 GB/s, PASS
ib_read_bw: 44.36-44.37 GB/s, FAIL
ib_write_lat avg: 2.13-2.17 us, FAIL
ib_read_lat avg: 4.05-4.08 us, FAIL

多节点 NCCL PDF matrix

Topology	AllReduce	Target	Status	AllToAll	Target	Status
2 nodes x 1 GPU	47.29	48.90	FAIL	24.85	27.25	FAIL
2 nodes x 2 GPUs	137.16	136.93	PASS	47.76	54.41	FAIL
2 nodes x 4 GPUs	335.07	335.48	FAIL	72.74	73.73	FAIL
2 nodes x 8 GPUs	353.85	491.84	FAIL	36.83	76.54	FAIL

所有 NCCL case 均 returncode=0、wrong=0，当前失败来自性能阈值，不是功能错误。

主要风险

不能把本 PR 合并理解为验收通过。 当前结果明确是 FAIL，本 PR 交付的是证据链和复跑能力。
PDF 2x8 allreduce 阈值可能要求比当前环境更强的 rail/plugin 能力。 当前每节点仅 4 条 400G IB rail；PDF 2x8 allreduce 目标 491.84 GB/s busbw 反推 algbw 262.31 GB/s，高于 4 x 400G rail 的理论单向原始带宽 200 GB/s。
alltoall 需要网络侧继续定位。 NCCL_PXN_DISABLE=1 后 rail 更均衡，但 2x8 alltoall 仍只有 36-37 GB/s。
单节点门禁也仍未过。 即使多节点 NCCL 后续解决，Compute、Stress、RDMA 单节点项仍需闭环。

验证方式

已完成：

git diff --check
本地与两台远端入口文件 sha256 核对
多节点 NCCL PDF matrix 复跑并归档 artifacts
多节点 2x8 六项 collective 复跑并归档 artifacts
跨节点 RDMA 单 rail 双向测试
单节点 test all 汇总

远端同步路径：

nccl-gpu-1: /root/test_gpu_scripts
nccl-gpu-2: /root/test_gpu_scripts

复跑命令

cd /root/test_gpu_scripts
bash scripts/multinode_nccl_deep_diagnose.sh preflight
bash scripts/run_multinode_nccl_pdf_matrix.sh
bash scripts/run_multinode_nccl_all_collectives.sh

单节点复跑：

cd /root/test_gpu_scripts
bash scripts/run_h100_single_node_all.sh

Reviewer 重点看

文件	为什么要看
`reports_h100_acceptance_current_status_20260523.md`	当前总览和失败项
`reports_h100_acceptance_delivery_manifest_20260523.md`	交付包入口、远端 artifacts、checksum
`reports_h100_network_hardware_escalation_request_20260523.md`	需要网络/硬件/环境侧回填的问题
`reports_multinode_nccl_environment_gap_20260523.md`	为什么当前环境不能证明与 PDF 等价
`reports_multinode_nccl_pdf_matrix_run_20260523.md`	多节点 PDF matrix 结果
`reports_multinode_nccl_all_collectives_run_20260523.md`	六项 collective 补测结果

合并建议

可以合并为测试侧交付分支，但合并说明中必须保留：

当前 H100 生产验收未通过；本分支交付测试证据、复跑脚本和闭环请求。
最终验收需等待网络/硬件/环境侧确认或修复后复跑。

5.1 KiB Raw Blame History Unescape Escape