From 639651ef242bb81f5c382f4ba4038bd275bf7501 Mon Sep 17 00:00:00 2001 From: cs Date: Sat, 23 May 2026 20:29:19 +0800 Subject: [PATCH] Add H100 network escalation request --- README.md | 9 +- ...0_acceptance_closure_checklist_20260523.md | 8 +- ...h100_acceptance_current_status_20260523.md | 14 +- ...rk_hardware_escalation_request_20260523.md | 193 ++++++++++++++++++ ...ts_multinode_nccl_latest_index_20260523.md | 17 +- 5 files changed, 221 insertions(+), 20 deletions(-) create mode 100644 reports_h100_network_hardware_escalation_request_20260523.md diff --git a/README.md b/README.md index 3050464..ea763a1 100644 --- a/README.md +++ b/README.md @@ -14,10 +14,11 @@ |---|---|---| | 1 | [reports_h100_acceptance_current_status_20260523.md](reports_h100_acceptance_current_status_20260523.md) | 当前总状态:已测项、失败项、阻塞项、下一步 | | 2 | [reports_h100_acceptance_closure_checklist_20260523.md](reports_h100_acceptance_closure_checklist_20260523.md) | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 | -| 3 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 | -| 4 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 | -| 5 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 | -| 6 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 | +| 3 | [reports_h100_network_hardware_escalation_request_20260523.md](reports_h100_network_hardware_escalation_request_20260523.md) | 给网络/硬件/环境侧的闭环请求和回填表 | +| 4 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 | +| 5 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 | +| 6 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 | +| 7 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 | 当前主要阻塞: diff --git a/reports_h100_acceptance_closure_checklist_20260523.md b/reports_h100_acceptance_closure_checklist_20260523.md index 6c30aa8..670c146 100644 --- a/reports_h100_acceptance_closure_checklist_20260523.md +++ b/reports_h100_acceptance_closure_checklist_20260523.md @@ -22,6 +22,7 @@ | 多节点 2x8 六项 collective | 完成 | `scripts/run_multinode_nccl_all_collectives.sh`,`reports_multinode_nccl_all_collectives_run_20260523.md` | | NCCL artifacts / checksum | 完成 | `reports_multinode_nccl_pdf_matrix_artifacts_manifest_20260523_113803.md`,`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | | 环境等价性分析 | 完成 | `reports_multinode_nccl_environment_gap_20260523.md` | +| 网络/硬件/环境闭环请求 | 完成 | `reports_h100_network_hardware_escalation_request_20260523.md` | | 接手 runbook / README 入口 | 完成 | `README.md`,`reports_multinode_nccl_handoff_plan_20260523.md` | 这些工作可以作为当前阶段交付物归档。 @@ -88,9 +89,10 @@ bash scripts/run_multinode_nccl_all_collectives.sh 1. `reports_h100_acceptance_current_status_20260523.md` 2. `reports_h100_acceptance_closure_checklist_20260523.md` -3. `reports_multinode_nccl_handoff_plan_20260523.md` -4. `reports_multinode_nccl_environment_gap_20260523.md` -5. `reports_multinode_nccl_latest_index_20260523.md` +3. `reports_h100_network_hardware_escalation_request_20260523.md` +4. `reports_multinode_nccl_handoff_plan_20260523.md` +5. `reports_multinode_nccl_environment_gap_20260523.md` +6. `reports_multinode_nccl_latest_index_20260523.md` 当前项目可以向外汇报为: diff --git a/reports_h100_acceptance_current_status_20260523.md b/reports_h100_acceptance_current_status_20260523.md index f8cbe3c..8b74012 100644 --- a/reports_h100_acceptance_current_status_20260523.md +++ b/reports_h100_acceptance_current_status_20260523.md @@ -15,6 +15,7 @@ | NCCL artifacts 信号 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 基础链路正常 | IB/GDRDMA/HCA 均正常;无 SHARP/CollNet/外部 net plugin | | 环境等价性 | `reports_multinode_nccl_environment_gap_20260523.md` | 未证明等价 | 每节点只有 4 条 400G rail,缺 NCCL net plugin / SHARP | | 收尾检查 | `reports_h100_acceptance_closure_checklist_20260523.md` | 可阶段性交付 | 生产验收门禁仍未关闭 | +| 网络/硬件/环境闭环 | `reports_h100_network_hardware_escalation_request_20260523.md` | 已形成请求 | 等待 rail/plugin/SHARP/交换策略/阈值口径回填 | ## 已完成的能力 @@ -152,9 +153,10 @@ NCCL 日志中没有 SHARP/CollNet 迹象,当前走 internal IB plugin。 |---:|---|---| | 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前总览和阻塞清单 | | 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 | -| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 | -| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 | -| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 | -| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 | -| 7 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 | -| 8 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 | +| 3 | `reports_h100_network_hardware_escalation_request_20260523.md` | 给网络/硬件/环境侧的闭环请求 | +| 4 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 | +| 5 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 | +| 6 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 | +| 7 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 | +| 8 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 | +| 9 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 | diff --git a/reports_h100_network_hardware_escalation_request_20260523.md b/reports_h100_network_hardware_escalation_request_20260523.md new file mode 100644 index 0000000..f4a82d5 --- /dev/null +++ b/reports_h100_network_hardware_escalation_request_20260523.md @@ -0,0 +1,193 @@ +# H100 网络/硬件/环境侧闭环请求 2026-05-23 + +## 用途 + +这份文档用于转交给网络、硬件、机房、环境维护同事,目标是把当前 H100 验收剩余 `FAIL` 从“测试侧已复现”推进到“责任侧确认并闭环”。 + +当前测试侧已经完成单节点 `test all`、跨节点 RDMA、多节点 NCCL PDF matrix、2x8 六项 collective、NCCL artifacts、checksum 和中文报告。当前不能判生产验收通过,剩余问题需要网络/硬件/环境侧确认。 + +## 需要对方先读的结论 + +当前两台机器: + +| 角色 | 主机名 | 地址 | +|---|---|---| +| nccl-gpu-1 | `aikubeworker0012` | `172.72.8.12` | +| nccl-gpu-2 | `aikubeworker0016` | `172.72.8.16` | + +当前主要阻塞: + +| 阻塞 | 当前证据 | 需要确认 | +|---|---|---| +| 每节点有效 400G IB rail 只有 4 条 | `mlx5_0,mlx5_1,mlx5_6,mlx5_7` | 这是否符合采购/布线/验收预期 | +| 其他 HCA 不等价 | `mlx5_4/5` 为 100G IB,`mlx5_2/8` 为 25G Ethernet,`mlx5_3/9` DOWN | 是配置问题、线缆/模块问题、交换端口问题,还是设计如此 | +| 缺外部 NCCL 网络组件 | 未找到 `libnccl-net*.so*`、`libsharp*.so*`,未见 SHARP/HCOLL 包 | PDF 参考环境是否启用这些组件 | +| 跨节点 RDMA read/latency 未过 | `ib_read_bw` 约 44.36 GB/s,目标 >= 47 GB/s;latency 也未达阈值 | OFED/固件/BIOS/交换网络/perftest 参数是否需要调整 | +| 2x8 NCCL allreduce 未达 PDF | `353.85 GB/s` vs `491.84 GB/s` | PDF 目标是否要求更多 rail 或 plugin/SHARP | +| 2x8 NCCL alltoall 未达 PDF | `36.83 GB/s` vs `76.54 GB/s` | 跨 Leaf ECMP/adaptive routing/congestion control 是否影响多点流量 | + +## 请对方必须回填的问题 + +### 1. Rail / 端口 / HCA + +请逐项回答: + +| 问题 | 回答 | +|---|---| +| 这两台机器是否设计为每节点 8 条 400G InfiniBand rail? | | +| 如果是,为什么当前只有 `mlx5_0,mlx5_1,mlx5_6,mlx5_7` 是 400G IB ACTIVE? | | +| `mlx5_4`、`mlx5_5` 为什么只有 100G IB? | | +| `mlx5_2`、`mlx5_8` 为什么是 25G Ethernet? | | +| `mlx5_3`、`mlx5_9` 为什么 DOWN? | | +| 当前 HCA 状态是否符合这批机器的采购/交付规格? | | +| 如果不符合,修复动作和预计完成时间是什么? | | + +建议在两台节点分别执行并回填输出: + +```bash +hostname +for d in /sys/class/infiniband/mlx5_*; do + dev=$(basename "$d") + printf "%s state=%s rate=%s link_layer=%s\n" \ + "$dev" \ + "$(cat "$d/ports/1/state" 2>/dev/null)" \ + "$(cat "$d/ports/1/rate" 2>/dev/null)" \ + "$(cat "$d/ports/1/link_layer" 2>/dev/null)" +done +nvidia-smi topo -m +``` + +### 2. PDF 参考环境等价性 + +请确认 PDF 参考环境到底是什么形态: + +| 问题 | 回答 | +|---|---| +| PDF 参考环境每节点实际参与 NCCL 的 400G rail 数量是多少? | | +| PDF 参考环境的 HCA 列表是否全部为 400G IB ACTIVE? | | +| PDF 是否是在同一 Leaf、跨 Leaf,还是不同交换路径下测得? | | +| PDF 是否启用了 adaptive routing / ECMP / congestion control 特定策略? | | +| PDF 是否使用了外部 NCCL net plugin / SHARP / HCOLL / UCX plugin? | | +| 如果当前环境与 PDF 不等价,是否仍要求按 PDF 阈值验收? | | + +测试侧当前判断:如果 PDF 2x8 allreduce 目标 `491.84 GB/s busbw` 是硬阈值,则其反推 algbw 为: + +```text +491.84 / 1.875 = 262.31 GB/s +``` + +当前每节点 4 条 400G rail 的理论单向原始带宽约: + +```text +4 * 400Gb/s / 8 = 200 GB/s +``` + +因此请明确:当前 4 rail 形态是否允许按 PDF 2x8 allreduce 目标验收。 + +### 3. NCCL net plugin / SHARP / HCOLL + +请逐项回答: + +| 问题 | 回答 | +|---|---| +| 当前生产验收标准是否要求安装 NCCL net plugin? | | +| 当前生产验收标准是否要求启用 SHARP 或 HCOLL? | | +| 如果要求,安装包来源、版本、安装路径是什么? | | +| 安装后是否需要设置 `LD_LIBRARY_PATH`、`NCCL_NET_PLUGIN`、`NCCL_COLLNET_ENABLE` 等变量? | | +| 如果不要求,是否确认 internal IB plugin 即为验收参考环境? | | + +建议在两台节点分别执行并回填输出: + +```bash +hostname +find /usr /opt /root /data -name 'libnccl-net*.so*' -o -name 'libsharp*.so*' 2>/dev/null +dpkg -l | egrep -i 'sharp|hcoll|nccl|ucx|ofed|doca' || true +ldconfig -p | egrep -i 'nccl-net|sharp|hcoll|ucx' || true +``` + +### 4. 跨节点 RDMA read/latency + +当前测试侧证据: + +| Direction | Test | Value | Threshold | Status | +|---|---|---:|---:|---| +| 0016 -> 0012 | `ib_write_bw` | 49.35 GB/s | >= 47 GB/s | PASS | +| 0016 -> 0012 | `ib_read_bw` | 44.36 GB/s | >= 47 GB/s | FAIL | +| 0016 -> 0012 | `ib_write_lat` avg | 2.17 us | <= 2.0 us | FAIL | +| 0016 -> 0012 | `ib_read_lat` avg | 4.05 us | <= 3.5 us | FAIL | +| 0012 -> 0016 | `ib_write_bw` | 48.38 GB/s | >= 47 GB/s | PASS | +| 0012 -> 0016 | `ib_read_bw` | 44.37 GB/s | >= 47 GB/s | FAIL | +| 0012 -> 0016 | `ib_write_lat` avg | 2.13 us | <= 2.0 us | FAIL | +| 0012 -> 0016 | `ib_read_lat` avg | 4.08 us | <= 3.5 us | FAIL | + +请确认: + +| 问题 | 回答 | +|---|---| +| 当前 OFED / firmware / BIOS 设置是否符合 400G IB perftest 验收推荐? | | +| read BW 明显低于 write BW 是否符合预期? | | +| 当前 latency 阈值是否适用于跨 Leaf 场景? | | +| 是否需要指定 GID index、MTU、SL、traffic class、PCI relaxed ordering 或其他参数? | | +| 是否能提供网络侧 port counter / credit wait / congestion 证据? | | + +### 5. alltoall 跨 Leaf 路径 + +当前测试侧已经做过 NCCL 参数 sweep,`NCCL_PXN_DISABLE=1` 后 rail 更均衡,但 2x8 alltoall 仍只有 `36-37 GB/s`。继续盲调 NCCL 小参数没有明显收益。 + +请网络侧确认: + +| 问题 | 回答 | +|---|---| +| 两台机器是否跨 Leaf? | | +| 当前跨 Leaf ECMP hash 是否适合 alltoall 多点到多点流量? | | +| adaptive routing 是否开启? | | +| 是否存在 credit wait、PFC pause、拥塞控制、buffer 或 QoS 策略限制? | | +| 是否能提供 alltoall 运行窗口内的交换机端口 counter? | | + +## 测试侧可配合复跑的命令 + +如果网络/硬件/环境侧完成调整,请在 `nccl-gpu-1` 上复跑: + +```bash +cd /root/test_gpu_scripts +bash scripts/multinode_nccl_deep_diagnose.sh preflight +bash scripts/run_multinode_nccl_pdf_matrix.sh +bash scripts/run_multinode_nccl_all_collectives.sh +``` + +如果调整了 SHARP/plugin,请额外跑: + +```bash +cd /root/test_gpu_scripts +OUT_DIR=/root/test_gpu_scripts/reports/nccl_deep_diag_plugin_check_$(date +%Y%m%d_%H%M%S) \ + bash scripts/multinode_nccl_deep_diagnose.sh graph +``` + +如果调整了单节点环境,请分别在两台节点跑: + +```bash +cd /root/test_gpu_scripts +bash scripts/run_h100_single_node_all.sh +``` + +## 测试侧当前交付物 + +| 文件 | 用途 | +|---|---| +| `reports_h100_acceptance_current_status_20260523.md` | 当前总览 | +| `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 | +| `reports_h100_network_hardware_escalation_request_20260523.md` | 本闭环请求 | +| `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 | +| `reports_multinode_nccl_handoff_plan_20260523.md` | 复跑和接手计划 | +| `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 多节点 NCCL PDF matrix 摘要 | +| `reports_multinode_nccl_all_collectives_run_20260523.md` | 多节点 2x8 六项 collective 摘要 | +| `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 | + +## 闭环判定 + +网络/硬件/环境侧需要输出以下任一结论,测试侧才能继续往最终验收推进: + +1. **环境修复完成:** 当前两台机器已达到 PDF 参考环境等价状态,请测试侧复跑。 +2. **环境不等价但可接受:** 当前机器规格与 PDF 不同,请按新的阈值/豁免口径复跑;新口径需写入配置或报告。 +3. **硬件/网络异常:** 当前机器或网络不满足交付规格,需要先修复硬件/布线/交换配置。 +4. **参考标准有误:** PDF 阈值不适用于当前场景,需要更新验收标准。 diff --git a/reports_multinode_nccl_latest_index_20260523.md b/reports_multinode_nccl_latest_index_20260523.md index 5bee9fe..5a7e0af 100644 --- a/reports_multinode_nccl_latest_index_20260523.md +++ b/reports_multinode_nccl_latest_index_20260523.md @@ -12,6 +12,7 @@ - 六项 collective 的完整 artifacts 已归档:`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md`,远端 tar 为 `reports/multinode_nccl_all_collectives_20260523_120144_artifacts.tar.gz`。 - 已补充当前验收状态总览:`reports_h100_acceptance_current_status_20260523.md`,把单节点、多机 NCCL、跨节点 RDMA、环境等价性和阻塞项合并到一份中文总表。 - 已补充收尾检查清单:`reports_h100_acceptance_closure_checklist_20260523.md`,明确哪些工作可以阶段性交付、哪些验收门禁仍不能关闭。 +- 已补充网络/硬件/环境侧闭环请求:`reports_h100_network_hardware_escalation_request_20260523.md`,用于让责任侧回填 rail、plugin/SHARP、跨 Leaf 和新阈值口径。 - 2 机 1/2/4 GPU per node 档位已接近 PDF 参考值,但严格按阈值仍 FAIL。 - 2 机 8 GPU 档位仍未达到 PDF 参考值: - allreduce 实测 `353.85 GB/s busbw`,PDF 目标 `491.84 GB/s`。 @@ -25,13 +26,14 @@ |---:|---|---| | 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前 H100 验收总览,汇总单节点、多机 NCCL、跨节点 RDMA 和阻塞项 | | 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 | -| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 | -| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP | -| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 | -| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 | -| 7 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum | -| 8 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 | -| 9 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep | +| 3 | `reports_h100_network_hardware_escalation_request_20260523.md` | 给网络/硬件/环境侧的闭环请求和回填表 | +| 4 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 | +| 5 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP | +| 6 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 | +| 7 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 | +| 8 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum | +| 9 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 | +| 10 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep | ## 关键脚本 @@ -105,6 +107,7 @@ OUT_DIR=/root/test_gpu_scripts/reports/nccl_deep_diag_plugin_check_$(date +%Y%m% /root/test_gpu_scripts/reports_multinode_nccl_handoff_plan_20260523.md /root/test_gpu_scripts/reports_h100_acceptance_current_status_20260523.md /root/test_gpu_scripts/reports_h100_acceptance_closure_checklist_20260523.md +/root/test_gpu_scripts/reports_h100_network_hardware_escalation_request_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_environment_gap_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_artifact_signal_analysis_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_all_collectives_run_20260523.md