8.6 KiB
H100 验收当前状态总览 2026-05-23
一句话结论
当前脚本能力和证据链已经基本补齐:单节点 test all、多机多卡 PDF matrix、2x8 六项 collective、跨节点 RDMA、NCCL artifacts、环境快照和 checksum 都已经有可复跑入口和原始证据。但按当前 PDF/配置口径,两台 H100 节点仍不能判定生产验收通过,主要阻塞不是脚本没跑,而是多项实测指标低于阈值,以及当前硬件/软件环境无法证明与 PDF 参考环境等价。
当前总状态
| 范围 | 当前证据 | 结论 | 主要阻塞 |
|---|---|---|---|
单节点 test all |
reports_test_all_latest_summary_cn_20260523.md |
两台均 FAIL | Compute、NCCL、Stress、RDMA |
| 跨节点 RDMA | reports_rdma_cross_node_mlx5_0_20260523.md |
FAIL | read BW、write/read latency 未达阈值 |
| 多机多卡 PDF matrix | reports_multinode_nccl_pdf_matrix_run_20260523.md |
FAIL | 2x8 allreduce/alltoall 差距大,1/4 GPU 档位部分小差距 |
| 多机多卡 2x8 六项 collective | reports_multinode_nccl_all_collectives_run_20260523.md |
FAIL / evidence complete | 6 项正确性通过;allreduce/alltoall 按 PDF 阈值 FAIL |
| NCCL artifacts 信号 | reports_multinode_nccl_artifact_signal_analysis_20260523.md |
基础链路正常 | IB/GDRDMA/HCA 均正常;无 SHARP/CollNet/外部 net plugin |
| 环境等价性 | reports_multinode_nccl_environment_gap_20260523.md |
未证明等价 | 每节点只有 4 条 400G rail,缺 NCCL net plugin / SHARP |
| 收尾检查 | reports_h100_acceptance_closure_checklist_20260523.md |
可阶段性交付 | 生产验收门禁仍未关闭 |
| 网络/硬件/环境闭环 | reports_h100_network_hardware_escalation_request_20260523.md |
已形成请求 | 等待 rail/plugin/SHARP/交换策略/阈值口径回填 |
已完成的能力
| 能力 | 当前状态 |
|---|---|
| 单节点 H100 all 验收入口 | scripts/run_h100_single_node_all.sh 已可用,默认带环境快照 |
| 多机 PDF matrix 入口 | scripts/run_multinode_nccl_pdf_matrix.sh 已可用,自动归档每个 case 的 cmd/stdout/stderr/json |
| 多机 2x8 六项 collective 入口 | scripts/run_multinode_nccl_all_collectives.sh 已可用,覆盖 allreduce/alltoall/broadcast/reducescatter/allgather/sendrecv |
| NCCL 深度诊断入口 | scripts/multinode_nccl_deep_diagnose.sh 已可用,覆盖 preflight、counter、graph、PXN sweep |
| 环境等价性快照 | scripts/nccl_environment_snapshot.sh 已可用 |
| 原始证据归档 | PDF matrix 和六项 collective artifacts 均已 tar + checksum |
| 中文解释文档 | 指标说明、NCCL/RDMA 概念、handoff、environment gap、artifact signal analysis 均已生成 |
单节点验收状态
两台机器的单节点 test all 当前都是:
Suite: 6/10 PASS
PDF acceptance: FAIL
通过项:
- GPU Info
- Health
- Memory Bandwidth
- NVLink/NVSwitch
- DCGM diag -r 3
- Training Simulation
失败项:
| 项目 | 当前现象 | 备注 |
|---|---|---|
| Compute | 多 dtype 绝对 TFLOPS 阈值未达,部分 GPU 间 spread 超 3% | 需要复核 H100 阈值口径和具体 dtype 路径 |
| NCCL 单机 | 真实 nccl-tests 已可测,但多 op/size 未达阈值 |
主要是 1M 小包,以及 reducescatter/allgather 的 2G |
| Stress | 30 分钟可跑满,但温差和 sw_power_cap throttle 导致 FAIL |
更像散热/功耗策略或阈值口径问题 |
| RDMA 单机 | read BW 未达标,部分端口速率低于 400G | 单机 local-loopback 不能替代跨节点 RDMA |
跨节点 RDMA 状态
跨节点 mlx5_0 单 rail perftest 结果:
| Direction | Test | Value | Threshold | Status |
|---|---|---|---|---|
| 0016 -> 0012 | ib_write_bw | 49.35 GB/s | >= 47 GB/s | PASS |
| 0016 -> 0012 | ib_read_bw | 44.36 GB/s | >= 47 GB/s | FAIL |
| 0016 -> 0012 | ib_write_lat avg | 2.17 us | <= 2.0 us | FAIL |
| 0016 -> 0012 | ib_read_lat avg | 4.05 us | <= 3.5 us | FAIL |
| 0012 -> 0016 | ib_write_bw | 48.38 GB/s | >= 47 GB/s | PASS |
| 0012 -> 0016 | ib_read_bw | 44.37 GB/s | >= 47 GB/s | FAIL |
| 0012 -> 0016 | ib_write_lat avg | 2.13 us | <= 2.0 us | FAIL |
| 0012 -> 0016 | ib_read_lat avg | 4.08 us | <= 3.5 us | FAIL |
判断:链路连通、ibping 正常、PFC/ECN/CNP/congestion counter 干净;但 read bandwidth 和 latency 仍低于阈值,需要网络/OFED/BIOS/firmware 或 perftest 参数侧继续确认。
多机多卡 NCCL 状态
PDF Matrix
| Topology | AllReduce | Target | Status | AllToAll | Target | Status |
|---|---|---|---|---|---|---|
| 2 nodes x 1 GPU | 47.29 | 48.90 | FAIL | 24.85 | 27.25 | FAIL |
| 2 nodes x 2 GPUs | 137.16 | 136.93 | PASS | 47.76 | 54.41 | FAIL |
| 2 nodes x 4 GPUs | 335.07 | 335.48 | FAIL | 72.74 | 73.73 | FAIL |
| 2 nodes x 8 GPUs | 353.85 | 491.84 | FAIL | 36.83 | 76.54 | FAIL |
所有 case 均 returncode=0、wrong=0,所以 FAIL 来自性能阈值,不是功能错误。
2x8 六项 Collective 补测
| Operation | Peak Bus BW | Threshold | Correctness | Network | Status |
|---|---|---|---|---|---|
| allreduce | 354.27 | >= 491.84 | wrong=0 | IB/GDRDMA | FAIL |
| alltoall | 37.00 | >= 76.54 | wrong=0 | IB/GDRDMA | FAIL |
| broadcast | 191.65 | 未配置 | wrong=0 | IB/GDRDMA | PASS evidence |
| reducescatter | 192.75 | 未配置 | wrong=0 | IB/GDRDMA | PASS evidence |
| allgather | 192.14 | 未配置 | wrong=0 | IB/GDRDMA | PASS evidence |
| sendrecv | 26.98 | 未配置 | wrong=0 | IB/GDRDMA | PASS evidence |
这说明多机多卡 collective 覆盖面已经补齐,但生产性能是否达标仍取决于 PDF 是否有对应跨节点阈值,以及当前环境是否与 PDF 等价。
当前最关键阻塞
1. PDF 参考环境等价性未确认
当前两台节点每节点只有 4 条可用于 NCCL 的 400G IB rail:
mlx5_0, mlx5_1, mlx5_6, mlx5_7
其他 HCA:
mlx5_4, mlx5_5: 100G InfiniBand
mlx5_2, mlx5_8: 25G Ethernet
mlx5_3, mlx5_9: DOWN
PDF 2x8 allreduce 目标 491.84 GB/s busbw 反推 algbw 为 262.31 GB/s,高于当前 4 x 400G rail 的理论单向原始带宽 200 GB/s。如果 PDF 参考环境有更多 400G rail 或 SHARP/plugin,当前硬件/软件栈不等价。
2. 缺少 NCCL net plugin / SHARP
当前没有发现:
libnccl-net*.so*
libsharp*.so*
SHARP / HCOLL package
NCCL 日志中没有 SHARP/CollNet 迹象,当前走 internal IB plugin。
3. alltoall 仍是独立问题
NCCL_PXN_DISABLE=1 后 alltoall rail 更均衡,但 2x8 仍只有约 36-37 GB/s。已有 sweep 没找到稳定正收益,下一步应该交给网络路径、ECMP/adaptive routing、拥塞控制、plugin/SHARP 等方向,而不是继续盲调 NCCL 小参数。
4. 单节点 Compute/Stress/RDMA 也未过
即使多机 NCCL 后续解决,两台机器按当前 PDF test all 仍因 Compute、Stress、RDMA 项失败,不能直接判整机生产验收通过。
建议下一步
- 硬件/网络侧先确认 PDF 等价性。 确认参考环境每节点到底是 4 条还是 8 条 400G rail,是否启用 SHARP/NCCL net plugin,交换网络是否同一策略。
- 环境侧补齐或明确排除 SHARP/plugin。 如果 PDF 环境有,当前必须补齐后重跑
scripts/run_multinode_nccl_pdf_matrix.sh和scripts/run_multinode_nccl_all_collectives.sh。 - 网络侧排查 alltoall。 重点看跨 Leaf ECMP/adaptive routing/拥塞控制/credit wait,而不是只看链路是否 up。
- 单节点继续分项收敛。 Compute 阈值、Stress 温差/功耗 cap、RDMA read/latency 需要分别确认是机器问题、配置问题还是阈值口径问题。
- 如果硬件不等价,调整验收阈值或换等价节点复测。 当前证据不支持把 4 rail 环境直接按疑似更高规格 PDF 阈值判定。
当前最值得先读的文件
| 顺序 | 文件 | 用途 |
|---|---|---|
| 1 | reports_h100_acceptance_current_status_20260523.md |
当前总览和阻塞清单 |
| 2 | reports_h100_acceptance_closure_checklist_20260523.md |
收尾检查清单和关闭条件 |
| 3 | reports_h100_network_hardware_escalation_request_20260523.md |
给网络/硬件/环境侧的闭环请求 |
| 4 | reports_multinode_nccl_handoff_plan_20260523.md |
给网络/硬件/环境侧的交接计划 |
| 5 | reports_multinode_nccl_environment_gap_20260523.md |
PDF 环境等价性缺口 |
| 6 | reports_multinode_nccl_artifact_signal_analysis_20260523.md |
NCCL artifacts 信号分析 |
| 7 | reports_multinode_nccl_all_collectives_run_20260523.md |
多机 2x8 六项 collective 补测摘要 |
| 8 | reports_test_all_latest_summary_cn_20260523.md |
单节点 test all 中文汇总 |
| 9 | reports_rdma_cross_node_mlx5_0_20260523.md |
跨节点 RDMA 单 rail 证据 |