diff --git a/README.md b/README.md index 2555326..3050464 100644 --- a/README.md +++ b/README.md @@ -13,10 +13,11 @@ | 优先级 | 文件 | 用途 | |---|---|---| | 1 | [reports_h100_acceptance_current_status_20260523.md](reports_h100_acceptance_current_status_20260523.md) | 当前总状态:已测项、失败项、阻塞项、下一步 | -| 2 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 | -| 3 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 | -| 4 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 | -| 5 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 | +| 2 | [reports_h100_acceptance_closure_checklist_20260523.md](reports_h100_acceptance_closure_checklist_20260523.md) | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 | +| 3 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 | +| 4 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 | +| 5 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 | +| 6 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 | 当前主要阻塞: diff --git a/reports_h100_acceptance_closure_checklist_20260523.md b/reports_h100_acceptance_closure_checklist_20260523.md new file mode 100644 index 0000000..6c30aa8 --- /dev/null +++ b/reports_h100_acceptance_closure_checklist_20260523.md @@ -0,0 +1,101 @@ +# H100 验收收尾检查清单 2026-05-23 + +## 结论 + +当前项目已经可以进入“阶段性交付/问题转交”状态,但不能进入“生产验收通过”状态。 + +原因不是测试没跑完,而是当前证据明确显示多个验收门禁仍为 `FAIL`。要真正收尾,必须满足下面两种路径之一: + +1. **通过路径:** 修复硬件/网络/软件环境后复跑,单节点、跨节点 RDMA、多节点 NCCL 均达到 PDF/配置阈值。 +2. **例外路径:** 硬件/网络/环境侧书面确认当前机器与 PDF 参考环境不等价,并给出新的验收阈值或豁免口径,再按新口径复核。 + +在这两条路径完成前,本项目只能交付“已测证据 + 阻塞定位 + 复跑入口”,不能判定 H100 节点生产验收通过。 + +## 当前可关闭的工作 + +| 工作项 | 状态 | 证据 | +|---|---|---| +| 单节点 `test all` 入口 | 完成 | `scripts/run_h100_single_node_all.sh` | +| 单节点中文原始汇总 | 完成 | `reports_test_all_latest_summary_cn_20260523.md` | +| 跨节点 RDMA 单 rail 证据 | 完成 | `reports_rdma_cross_node_mlx5_0_20260523.md` | +| 多节点 NCCL PDF matrix | 完成 | `scripts/run_multinode_nccl_pdf_matrix.sh`,`reports_multinode_nccl_pdf_matrix_run_20260523.md` | +| 多节点 2x8 六项 collective | 完成 | `scripts/run_multinode_nccl_all_collectives.sh`,`reports_multinode_nccl_all_collectives_run_20260523.md` | +| NCCL artifacts / checksum | 完成 | `reports_multinode_nccl_pdf_matrix_artifacts_manifest_20260523_113803.md`,`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | +| 环境等价性分析 | 完成 | `reports_multinode_nccl_environment_gap_20260523.md` | +| 接手 runbook / README 入口 | 完成 | `README.md`,`reports_multinode_nccl_handoff_plan_20260523.md` | + +这些工作可以作为当前阶段交付物归档。 + +## 不能关闭的验收门禁 + +| 门禁 | 当前结果 | 现有证据 | 关闭条件 | +|---|---|---|---| +| 单节点 Compute | FAIL | 两台机器多 dtype 绝对 TFLOPS 未达阈值,部分 GPU spread 超 3% | 复核阈值/测试实现后重跑通过,或更新阈值口径 | +| 单节点 NCCL | FAIL | 多 op/size 未达阈值,尤其小包和部分 2G case | 按 PDF/config 逐 size 通过,或明确小包/阈值豁免 | +| 单节点 Stress | FAIL | 30 分钟可跑满,但温差和 `sw_power_cap` throttle 触发 FAIL | 调整散热/功耗策略或阈值后重跑通过 | +| 单节点 RDMA | FAIL | read BW 未达 47 GB/s,`mlx5_4/5` 只有 100G | perftest read/write/latency 和端口速率满足验收口径 | +| 跨节点 RDMA | FAIL | `mlx5_0` 写带宽 PASS,但读带宽和读写 latency FAIL | 双向 write/read BW/latency 全部达标 | +| 多节点 NCCL allreduce | FAIL | 2x8 `353.85 GB/s`,目标 `491.84 GB/s` | 环境等价后达到 PDF 阈值,或按 4 x 400G rail 重定标 | +| 多节点 NCCL alltoall | FAIL | 2x8 `36.83 GB/s`,目标 `76.54 GB/s` | 网络/plugin/SHARP/路径修复后达到阈值,或明确新口径 | +| PDF 环境等价性 | 未证明 | 当前每节点只有 4 条 400G rail,缺外部 NCCL net plugin / SHARP | 确认参考环境 rail/plugin/SHARP/交换策略,并补齐或重定标 | + +## 最短收尾路径 + +### 路径 A:按原 PDF 阈值验收 + +必须先完成环境补齐: + +1. 确认每节点是否应有 8 条 400G IB rail;如果是,修复 `mlx5_4/5`、`mlx5_2/8`、`mlx5_3/9` 的速率/模式/状态。 +2. 如 PDF 参考环境使用 SHARP、HCOLL、UCX plugin 或 NCCL net plugin,则在两台节点补齐同等组件。 +3. 让网络侧确认跨 Leaf ECMP / adaptive routing / congestion control / credit wait 配置。 +4. 复跑: + +```bash +cd /root/test_gpu_scripts +bash scripts/run_h100_single_node_all.sh +bash scripts/run_multinode_nccl_pdf_matrix.sh +bash scripts/run_multinode_nccl_all_collectives.sh +``` + +关闭标准:`reports_h100_acceptance_current_status_*.md` 中所有必测项不再有 `FAIL`。 + +### 路径 B:承认当前环境与 PDF 不等价 + +必须拿到新的验收口径: + +1. 硬件/网络侧确认当前机器实际有效 400G IB rail 数量。 +2. 明确是否允许按 4 x 400G rail 的物理上限重定 allreduce 阈值。 +3. 明确 2x8 alltoall 的合理目标,或要求安装 plugin/SHARP 后再判。 +4. 明确单节点 Compute、Stress、RDMA 的阈值是否沿用 PDF 原口径。 +5. 用新口径更新配置后复跑并生成新报告。 + +关闭标准:新口径必须写进配置或报告,不能只口头说明。 + +## 下一步优先级 + +| 优先级 | 动作 | 负责人建议 | 为什么 | +|---:|---|---|---| +| P0 | 确认 PDF 参考环境 rail/plugin/SHARP 状态 | 硬件/网络/环境侧 | 不确认等价性,2x8 allreduce 阈值是否合理无法判断 | +| P0 | 查跨 Leaf alltoall 网络路径 | 网络侧 | alltoall 低于目标过多,且参数 sweep 无稳定收益 | +| P1 | 复核单节点 Compute 阈值和测试 dtype 路径 | 测试/平台侧 | 两台机器多 dtype 绝对阈值均失败,需要确认是不是口径问题 | +| P1 | 处理 Stress `sw_power_cap` 和温差 | 机房/硬件侧 | 压测能跑满,但 telemetry 门禁未过 | +| P1 | 处理 RDMA read BW/latency | 网络/OFED/固件侧 | 单节点和跨节点 RDMA 都有 read/latency 缺口 | +| P2 | 启用 plugin/SHARP 后复跑 NCCL graph | 平台侧 | 用于验证 `plugin_missing` 是否消失、图策略是否变化 | + +## 当前交付物入口 + +优先读: + +1. `reports_h100_acceptance_current_status_20260523.md` +2. `reports_h100_acceptance_closure_checklist_20260523.md` +3. `reports_multinode_nccl_handoff_plan_20260523.md` +4. `reports_multinode_nccl_environment_gap_20260523.md` +5. `reports_multinode_nccl_latest_index_20260523.md` + +当前项目可以向外汇报为: + +```text +测试脚本、复跑入口、原始 artifacts、checksum 和中文报告已经齐备; +但当前 H100 生产验收未通过,剩余问题集中在单节点 Compute/NCCL/Stress/RDMA、 +跨节点 RDMA read/latency、多节点 NCCL 2x8 allreduce/alltoall 性能,以及 PDF 环境等价性。 +``` diff --git a/reports_h100_acceptance_current_status_20260523.md b/reports_h100_acceptance_current_status_20260523.md index 4900f9a..f8cbe3c 100644 --- a/reports_h100_acceptance_current_status_20260523.md +++ b/reports_h100_acceptance_current_status_20260523.md @@ -14,6 +14,7 @@ | 多机多卡 2x8 六项 collective | `reports_multinode_nccl_all_collectives_run_20260523.md` | FAIL / evidence complete | 6 项正确性通过;allreduce/alltoall 按 PDF 阈值 FAIL | | NCCL artifacts 信号 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 基础链路正常 | IB/GDRDMA/HCA 均正常;无 SHARP/CollNet/外部 net plugin | | 环境等价性 | `reports_multinode_nccl_environment_gap_20260523.md` | 未证明等价 | 每节点只有 4 条 400G rail,缺 NCCL net plugin / SHARP | +| 收尾检查 | `reports_h100_acceptance_closure_checklist_20260523.md` | 可阶段性交付 | 生产验收门禁仍未关闭 | ## 已完成的能力 @@ -150,9 +151,10 @@ NCCL 日志中没有 SHARP/CollNet 迹象,当前走 internal IB plugin。 | 顺序 | 文件 | 用途 | |---:|---|---| | 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前总览和阻塞清单 | -| 2 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 | -| 3 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 | -| 4 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 | -| 5 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 | -| 6 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 | -| 7 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 | +| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 | +| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 | +| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 | +| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 | +| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 | +| 7 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 | +| 8 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 | diff --git a/reports_multinode_nccl_latest_index_20260523.md b/reports_multinode_nccl_latest_index_20260523.md index 2867b32..5bee9fe 100644 --- a/reports_multinode_nccl_latest_index_20260523.md +++ b/reports_multinode_nccl_latest_index_20260523.md @@ -11,6 +11,7 @@ - 已补充并实跑多机多卡 2x8 六项 collective:`reports_multinode_nccl_all_collectives_run_20260523.md`。新增 `broadcast/reducescatter/allgather/sendrecv` 均 `returncode=0`、`wrong=0`、走 `IB/GDRDMA`;已知 PDF 阈值项 `allreduce/alltoall` 仍 FAIL。 - 六项 collective 的完整 artifacts 已归档:`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md`,远端 tar 为 `reports/multinode_nccl_all_collectives_20260523_120144_artifacts.tar.gz`。 - 已补充当前验收状态总览:`reports_h100_acceptance_current_status_20260523.md`,把单节点、多机 NCCL、跨节点 RDMA、环境等价性和阻塞项合并到一份中文总表。 +- 已补充收尾检查清单:`reports_h100_acceptance_closure_checklist_20260523.md`,明确哪些工作可以阶段性交付、哪些验收门禁仍不能关闭。 - 2 机 1/2/4 GPU per node 档位已接近 PDF 参考值,但严格按阈值仍 FAIL。 - 2 机 8 GPU 档位仍未达到 PDF 参考值: - allreduce 实测 `353.85 GB/s busbw`,PDF 目标 `491.84 GB/s`。 @@ -23,13 +24,14 @@ | 顺序 | 文件 | 用途 | |---:|---|---| | 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前 H100 验收总览,汇总单节点、多机 NCCL、跨节点 RDMA 和阻塞项 | -| 2 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 | -| 3 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP | -| 4 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 | -| 5 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 | -| 6 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum | -| 7 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 | -| 8 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep | +| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 | +| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 | +| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP | +| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 | +| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 | +| 7 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum | +| 8 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 | +| 9 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep | ## 关键脚本 @@ -102,6 +104,7 @@ OUT_DIR=/root/test_gpu_scripts/reports/nccl_deep_diag_plugin_check_$(date +%Y%m% ```text /root/test_gpu_scripts/reports_multinode_nccl_handoff_plan_20260523.md /root/test_gpu_scripts/reports_h100_acceptance_current_status_20260523.md +/root/test_gpu_scripts/reports_h100_acceptance_closure_checklist_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_environment_gap_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_artifact_signal_analysis_20260523.md /root/test_gpu_scripts/reports_multinode_nccl_all_collectives_run_20260523.md