Add H100 network escalation request
This commit is contained in:
parent
edb4612cc6
commit
639651ef24
@ -14,10 +14,11 @@
|
|||||||
|---|---|---|
|
|---|---|---|
|
||||||
| 1 | [reports_h100_acceptance_current_status_20260523.md](reports_h100_acceptance_current_status_20260523.md) | 当前总状态:已测项、失败项、阻塞项、下一步 |
|
| 1 | [reports_h100_acceptance_current_status_20260523.md](reports_h100_acceptance_current_status_20260523.md) | 当前总状态:已测项、失败项、阻塞项、下一步 |
|
||||||
| 2 | [reports_h100_acceptance_closure_checklist_20260523.md](reports_h100_acceptance_closure_checklist_20260523.md) | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 |
|
| 2 | [reports_h100_acceptance_closure_checklist_20260523.md](reports_h100_acceptance_closure_checklist_20260523.md) | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 |
|
||||||
| 3 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 |
|
| 3 | [reports_h100_network_hardware_escalation_request_20260523.md](reports_h100_network_hardware_escalation_request_20260523.md) | 给网络/硬件/环境侧的闭环请求和回填表 |
|
||||||
| 4 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 |
|
| 4 | [reports_multinode_nccl_latest_index_20260523.md](reports_multinode_nccl_latest_index_20260523.md) | 多节点 NCCL 相关报告索引 |
|
||||||
| 5 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 |
|
| 5 | [reports_multinode_nccl_handoff_plan_20260523.md](reports_multinode_nccl_handoff_plan_20260523.md) | 接手人复跑和继续定位计划 |
|
||||||
| 6 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 |
|
| 6 | [reports_test_all_latest_summary_cn_20260523.md](reports_test_all_latest_summary_cn_20260523.md) | 单节点 `test all` 中文原始汇总 |
|
||||||
|
| 7 | [reports_rdma_cross_node_mlx5_0_20260523.md](reports_rdma_cross_node_mlx5_0_20260523.md) | 跨节点 RDMA `mlx5_0` 双向结果 |
|
||||||
|
|
||||||
当前主要阻塞:
|
当前主要阻塞:
|
||||||
|
|
||||||
|
|||||||
@ -22,6 +22,7 @@
|
|||||||
| 多节点 2x8 六项 collective | 完成 | `scripts/run_multinode_nccl_all_collectives.sh`,`reports_multinode_nccl_all_collectives_run_20260523.md` |
|
| 多节点 2x8 六项 collective | 完成 | `scripts/run_multinode_nccl_all_collectives.sh`,`reports_multinode_nccl_all_collectives_run_20260523.md` |
|
||||||
| NCCL artifacts / checksum | 完成 | `reports_multinode_nccl_pdf_matrix_artifacts_manifest_20260523_113803.md`,`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` |
|
| NCCL artifacts / checksum | 完成 | `reports_multinode_nccl_pdf_matrix_artifacts_manifest_20260523_113803.md`,`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` |
|
||||||
| 环境等价性分析 | 完成 | `reports_multinode_nccl_environment_gap_20260523.md` |
|
| 环境等价性分析 | 完成 | `reports_multinode_nccl_environment_gap_20260523.md` |
|
||||||
|
| 网络/硬件/环境闭环请求 | 完成 | `reports_h100_network_hardware_escalation_request_20260523.md` |
|
||||||
| 接手 runbook / README 入口 | 完成 | `README.md`,`reports_multinode_nccl_handoff_plan_20260523.md` |
|
| 接手 runbook / README 入口 | 完成 | `README.md`,`reports_multinode_nccl_handoff_plan_20260523.md` |
|
||||||
|
|
||||||
这些工作可以作为当前阶段交付物归档。
|
这些工作可以作为当前阶段交付物归档。
|
||||||
@ -88,9 +89,10 @@ bash scripts/run_multinode_nccl_all_collectives.sh
|
|||||||
|
|
||||||
1. `reports_h100_acceptance_current_status_20260523.md`
|
1. `reports_h100_acceptance_current_status_20260523.md`
|
||||||
2. `reports_h100_acceptance_closure_checklist_20260523.md`
|
2. `reports_h100_acceptance_closure_checklist_20260523.md`
|
||||||
3. `reports_multinode_nccl_handoff_plan_20260523.md`
|
3. `reports_h100_network_hardware_escalation_request_20260523.md`
|
||||||
4. `reports_multinode_nccl_environment_gap_20260523.md`
|
4. `reports_multinode_nccl_handoff_plan_20260523.md`
|
||||||
5. `reports_multinode_nccl_latest_index_20260523.md`
|
5. `reports_multinode_nccl_environment_gap_20260523.md`
|
||||||
|
6. `reports_multinode_nccl_latest_index_20260523.md`
|
||||||
|
|
||||||
当前项目可以向外汇报为:
|
当前项目可以向外汇报为:
|
||||||
|
|
||||||
|
|||||||
@ -15,6 +15,7 @@
|
|||||||
| NCCL artifacts 信号 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 基础链路正常 | IB/GDRDMA/HCA 均正常;无 SHARP/CollNet/外部 net plugin |
|
| NCCL artifacts 信号 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 基础链路正常 | IB/GDRDMA/HCA 均正常;无 SHARP/CollNet/外部 net plugin |
|
||||||
| 环境等价性 | `reports_multinode_nccl_environment_gap_20260523.md` | 未证明等价 | 每节点只有 4 条 400G rail,缺 NCCL net plugin / SHARP |
|
| 环境等价性 | `reports_multinode_nccl_environment_gap_20260523.md` | 未证明等价 | 每节点只有 4 条 400G rail,缺 NCCL net plugin / SHARP |
|
||||||
| 收尾检查 | `reports_h100_acceptance_closure_checklist_20260523.md` | 可阶段性交付 | 生产验收门禁仍未关闭 |
|
| 收尾检查 | `reports_h100_acceptance_closure_checklist_20260523.md` | 可阶段性交付 | 生产验收门禁仍未关闭 |
|
||||||
|
| 网络/硬件/环境闭环 | `reports_h100_network_hardware_escalation_request_20260523.md` | 已形成请求 | 等待 rail/plugin/SHARP/交换策略/阈值口径回填 |
|
||||||
|
|
||||||
## 已完成的能力
|
## 已完成的能力
|
||||||
|
|
||||||
@ -152,9 +153,10 @@ NCCL 日志中没有 SHARP/CollNet 迹象,当前走 internal IB plugin。
|
|||||||
|---:|---|---|
|
|---:|---|---|
|
||||||
| 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前总览和阻塞清单 |
|
| 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前总览和阻塞清单 |
|
||||||
| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 |
|
| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 |
|
||||||
| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 |
|
| 3 | `reports_h100_network_hardware_escalation_request_20260523.md` | 给网络/硬件/环境侧的闭环请求 |
|
||||||
| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 |
|
| 4 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划 |
|
||||||
| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 |
|
| 5 | `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 |
|
||||||
| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 |
|
| 6 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | NCCL artifacts 信号分析 |
|
||||||
| 7 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 |
|
| 7 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机 2x8 六项 collective 补测摘要 |
|
||||||
| 8 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 |
|
| 8 | `reports_test_all_latest_summary_cn_20260523.md` | 单节点 test all 中文汇总 |
|
||||||
|
| 9 | `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 |
|
||||||
|
|||||||
193
reports_h100_network_hardware_escalation_request_20260523.md
Normal file
193
reports_h100_network_hardware_escalation_request_20260523.md
Normal file
@ -0,0 +1,193 @@
|
|||||||
|
# H100 网络/硬件/环境侧闭环请求 2026-05-23
|
||||||
|
|
||||||
|
## 用途
|
||||||
|
|
||||||
|
这份文档用于转交给网络、硬件、机房、环境维护同事,目标是把当前 H100 验收剩余 `FAIL` 从“测试侧已复现”推进到“责任侧确认并闭环”。
|
||||||
|
|
||||||
|
当前测试侧已经完成单节点 `test all`、跨节点 RDMA、多节点 NCCL PDF matrix、2x8 六项 collective、NCCL artifacts、checksum 和中文报告。当前不能判生产验收通过,剩余问题需要网络/硬件/环境侧确认。
|
||||||
|
|
||||||
|
## 需要对方先读的结论
|
||||||
|
|
||||||
|
当前两台机器:
|
||||||
|
|
||||||
|
| 角色 | 主机名 | 地址 |
|
||||||
|
|---|---|---|
|
||||||
|
| nccl-gpu-1 | `aikubeworker0012` | `172.72.8.12` |
|
||||||
|
| nccl-gpu-2 | `aikubeworker0016` | `172.72.8.16` |
|
||||||
|
|
||||||
|
当前主要阻塞:
|
||||||
|
|
||||||
|
| 阻塞 | 当前证据 | 需要确认 |
|
||||||
|
|---|---|---|
|
||||||
|
| 每节点有效 400G IB rail 只有 4 条 | `mlx5_0,mlx5_1,mlx5_6,mlx5_7` | 这是否符合采购/布线/验收预期 |
|
||||||
|
| 其他 HCA 不等价 | `mlx5_4/5` 为 100G IB,`mlx5_2/8` 为 25G Ethernet,`mlx5_3/9` DOWN | 是配置问题、线缆/模块问题、交换端口问题,还是设计如此 |
|
||||||
|
| 缺外部 NCCL 网络组件 | 未找到 `libnccl-net*.so*`、`libsharp*.so*`,未见 SHARP/HCOLL 包 | PDF 参考环境是否启用这些组件 |
|
||||||
|
| 跨节点 RDMA read/latency 未过 | `ib_read_bw` 约 44.36 GB/s,目标 >= 47 GB/s;latency 也未达阈值 | OFED/固件/BIOS/交换网络/perftest 参数是否需要调整 |
|
||||||
|
| 2x8 NCCL allreduce 未达 PDF | `353.85 GB/s` vs `491.84 GB/s` | PDF 目标是否要求更多 rail 或 plugin/SHARP |
|
||||||
|
| 2x8 NCCL alltoall 未达 PDF | `36.83 GB/s` vs `76.54 GB/s` | 跨 Leaf ECMP/adaptive routing/congestion control 是否影响多点流量 |
|
||||||
|
|
||||||
|
## 请对方必须回填的问题
|
||||||
|
|
||||||
|
### 1. Rail / 端口 / HCA
|
||||||
|
|
||||||
|
请逐项回答:
|
||||||
|
|
||||||
|
| 问题 | 回答 |
|
||||||
|
|---|---|
|
||||||
|
| 这两台机器是否设计为每节点 8 条 400G InfiniBand rail? | |
|
||||||
|
| 如果是,为什么当前只有 `mlx5_0,mlx5_1,mlx5_6,mlx5_7` 是 400G IB ACTIVE? | |
|
||||||
|
| `mlx5_4`、`mlx5_5` 为什么只有 100G IB? | |
|
||||||
|
| `mlx5_2`、`mlx5_8` 为什么是 25G Ethernet? | |
|
||||||
|
| `mlx5_3`、`mlx5_9` 为什么 DOWN? | |
|
||||||
|
| 当前 HCA 状态是否符合这批机器的采购/交付规格? | |
|
||||||
|
| 如果不符合,修复动作和预计完成时间是什么? | |
|
||||||
|
|
||||||
|
建议在两台节点分别执行并回填输出:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
hostname
|
||||||
|
for d in /sys/class/infiniband/mlx5_*; do
|
||||||
|
dev=$(basename "$d")
|
||||||
|
printf "%s state=%s rate=%s link_layer=%s\n" \
|
||||||
|
"$dev" \
|
||||||
|
"$(cat "$d/ports/1/state" 2>/dev/null)" \
|
||||||
|
"$(cat "$d/ports/1/rate" 2>/dev/null)" \
|
||||||
|
"$(cat "$d/ports/1/link_layer" 2>/dev/null)"
|
||||||
|
done
|
||||||
|
nvidia-smi topo -m
|
||||||
|
```
|
||||||
|
|
||||||
|
### 2. PDF 参考环境等价性
|
||||||
|
|
||||||
|
请确认 PDF 参考环境到底是什么形态:
|
||||||
|
|
||||||
|
| 问题 | 回答 |
|
||||||
|
|---|---|
|
||||||
|
| PDF 参考环境每节点实际参与 NCCL 的 400G rail 数量是多少? | |
|
||||||
|
| PDF 参考环境的 HCA 列表是否全部为 400G IB ACTIVE? | |
|
||||||
|
| PDF 是否是在同一 Leaf、跨 Leaf,还是不同交换路径下测得? | |
|
||||||
|
| PDF 是否启用了 adaptive routing / ECMP / congestion control 特定策略? | |
|
||||||
|
| PDF 是否使用了外部 NCCL net plugin / SHARP / HCOLL / UCX plugin? | |
|
||||||
|
| 如果当前环境与 PDF 不等价,是否仍要求按 PDF 阈值验收? | |
|
||||||
|
|
||||||
|
测试侧当前判断:如果 PDF 2x8 allreduce 目标 `491.84 GB/s busbw` 是硬阈值,则其反推 algbw 为:
|
||||||
|
|
||||||
|
```text
|
||||||
|
491.84 / 1.875 = 262.31 GB/s
|
||||||
|
```
|
||||||
|
|
||||||
|
当前每节点 4 条 400G rail 的理论单向原始带宽约:
|
||||||
|
|
||||||
|
```text
|
||||||
|
4 * 400Gb/s / 8 = 200 GB/s
|
||||||
|
```
|
||||||
|
|
||||||
|
因此请明确:当前 4 rail 形态是否允许按 PDF 2x8 allreduce 目标验收。
|
||||||
|
|
||||||
|
### 3. NCCL net plugin / SHARP / HCOLL
|
||||||
|
|
||||||
|
请逐项回答:
|
||||||
|
|
||||||
|
| 问题 | 回答 |
|
||||||
|
|---|---|
|
||||||
|
| 当前生产验收标准是否要求安装 NCCL net plugin? | |
|
||||||
|
| 当前生产验收标准是否要求启用 SHARP 或 HCOLL? | |
|
||||||
|
| 如果要求,安装包来源、版本、安装路径是什么? | |
|
||||||
|
| 安装后是否需要设置 `LD_LIBRARY_PATH`、`NCCL_NET_PLUGIN`、`NCCL_COLLNET_ENABLE` 等变量? | |
|
||||||
|
| 如果不要求,是否确认 internal IB plugin 即为验收参考环境? | |
|
||||||
|
|
||||||
|
建议在两台节点分别执行并回填输出:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
hostname
|
||||||
|
find /usr /opt /root /data -name 'libnccl-net*.so*' -o -name 'libsharp*.so*' 2>/dev/null
|
||||||
|
dpkg -l | egrep -i 'sharp|hcoll|nccl|ucx|ofed|doca' || true
|
||||||
|
ldconfig -p | egrep -i 'nccl-net|sharp|hcoll|ucx' || true
|
||||||
|
```
|
||||||
|
|
||||||
|
### 4. 跨节点 RDMA read/latency
|
||||||
|
|
||||||
|
当前测试侧证据:
|
||||||
|
|
||||||
|
| Direction | Test | Value | Threshold | Status |
|
||||||
|
|---|---|---:|---:|---|
|
||||||
|
| 0016 -> 0012 | `ib_write_bw` | 49.35 GB/s | >= 47 GB/s | PASS |
|
||||||
|
| 0016 -> 0012 | `ib_read_bw` | 44.36 GB/s | >= 47 GB/s | FAIL |
|
||||||
|
| 0016 -> 0012 | `ib_write_lat` avg | 2.17 us | <= 2.0 us | FAIL |
|
||||||
|
| 0016 -> 0012 | `ib_read_lat` avg | 4.05 us | <= 3.5 us | FAIL |
|
||||||
|
| 0012 -> 0016 | `ib_write_bw` | 48.38 GB/s | >= 47 GB/s | PASS |
|
||||||
|
| 0012 -> 0016 | `ib_read_bw` | 44.37 GB/s | >= 47 GB/s | FAIL |
|
||||||
|
| 0012 -> 0016 | `ib_write_lat` avg | 2.13 us | <= 2.0 us | FAIL |
|
||||||
|
| 0012 -> 0016 | `ib_read_lat` avg | 4.08 us | <= 3.5 us | FAIL |
|
||||||
|
|
||||||
|
请确认:
|
||||||
|
|
||||||
|
| 问题 | 回答 |
|
||||||
|
|---|---|
|
||||||
|
| 当前 OFED / firmware / BIOS 设置是否符合 400G IB perftest 验收推荐? | |
|
||||||
|
| read BW 明显低于 write BW 是否符合预期? | |
|
||||||
|
| 当前 latency 阈值是否适用于跨 Leaf 场景? | |
|
||||||
|
| 是否需要指定 GID index、MTU、SL、traffic class、PCI relaxed ordering 或其他参数? | |
|
||||||
|
| 是否能提供网络侧 port counter / credit wait / congestion 证据? | |
|
||||||
|
|
||||||
|
### 5. alltoall 跨 Leaf 路径
|
||||||
|
|
||||||
|
当前测试侧已经做过 NCCL 参数 sweep,`NCCL_PXN_DISABLE=1` 后 rail 更均衡,但 2x8 alltoall 仍只有 `36-37 GB/s`。继续盲调 NCCL 小参数没有明显收益。
|
||||||
|
|
||||||
|
请网络侧确认:
|
||||||
|
|
||||||
|
| 问题 | 回答 |
|
||||||
|
|---|---|
|
||||||
|
| 两台机器是否跨 Leaf? | |
|
||||||
|
| 当前跨 Leaf ECMP hash 是否适合 alltoall 多点到多点流量? | |
|
||||||
|
| adaptive routing 是否开启? | |
|
||||||
|
| 是否存在 credit wait、PFC pause、拥塞控制、buffer 或 QoS 策略限制? | |
|
||||||
|
| 是否能提供 alltoall 运行窗口内的交换机端口 counter? | |
|
||||||
|
|
||||||
|
## 测试侧可配合复跑的命令
|
||||||
|
|
||||||
|
如果网络/硬件/环境侧完成调整,请在 `nccl-gpu-1` 上复跑:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
cd /root/test_gpu_scripts
|
||||||
|
bash scripts/multinode_nccl_deep_diagnose.sh preflight
|
||||||
|
bash scripts/run_multinode_nccl_pdf_matrix.sh
|
||||||
|
bash scripts/run_multinode_nccl_all_collectives.sh
|
||||||
|
```
|
||||||
|
|
||||||
|
如果调整了 SHARP/plugin,请额外跑:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
cd /root/test_gpu_scripts
|
||||||
|
OUT_DIR=/root/test_gpu_scripts/reports/nccl_deep_diag_plugin_check_$(date +%Y%m%d_%H%M%S) \
|
||||||
|
bash scripts/multinode_nccl_deep_diagnose.sh graph
|
||||||
|
```
|
||||||
|
|
||||||
|
如果调整了单节点环境,请分别在两台节点跑:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
cd /root/test_gpu_scripts
|
||||||
|
bash scripts/run_h100_single_node_all.sh
|
||||||
|
```
|
||||||
|
|
||||||
|
## 测试侧当前交付物
|
||||||
|
|
||||||
|
| 文件 | 用途 |
|
||||||
|
|---|---|
|
||||||
|
| `reports_h100_acceptance_current_status_20260523.md` | 当前总览 |
|
||||||
|
| `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单和关闭条件 |
|
||||||
|
| `reports_h100_network_hardware_escalation_request_20260523.md` | 本闭环请求 |
|
||||||
|
| `reports_multinode_nccl_environment_gap_20260523.md` | PDF 环境等价性缺口 |
|
||||||
|
| `reports_multinode_nccl_handoff_plan_20260523.md` | 复跑和接手计划 |
|
||||||
|
| `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 多节点 NCCL PDF matrix 摘要 |
|
||||||
|
| `reports_multinode_nccl_all_collectives_run_20260523.md` | 多节点 2x8 六项 collective 摘要 |
|
||||||
|
| `reports_rdma_cross_node_mlx5_0_20260523.md` | 跨节点 RDMA 单 rail 证据 |
|
||||||
|
|
||||||
|
## 闭环判定
|
||||||
|
|
||||||
|
网络/硬件/环境侧需要输出以下任一结论,测试侧才能继续往最终验收推进:
|
||||||
|
|
||||||
|
1. **环境修复完成:** 当前两台机器已达到 PDF 参考环境等价状态,请测试侧复跑。
|
||||||
|
2. **环境不等价但可接受:** 当前机器规格与 PDF 不同,请按新的阈值/豁免口径复跑;新口径需写入配置或报告。
|
||||||
|
3. **硬件/网络异常:** 当前机器或网络不满足交付规格,需要先修复硬件/布线/交换配置。
|
||||||
|
4. **参考标准有误:** PDF 阈值不适用于当前场景,需要更新验收标准。
|
||||||
@ -12,6 +12,7 @@
|
|||||||
- 六项 collective 的完整 artifacts 已归档:`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md`,远端 tar 为 `reports/multinode_nccl_all_collectives_20260523_120144_artifacts.tar.gz`。
|
- 六项 collective 的完整 artifacts 已归档:`reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md`,远端 tar 为 `reports/multinode_nccl_all_collectives_20260523_120144_artifacts.tar.gz`。
|
||||||
- 已补充当前验收状态总览:`reports_h100_acceptance_current_status_20260523.md`,把单节点、多机 NCCL、跨节点 RDMA、环境等价性和阻塞项合并到一份中文总表。
|
- 已补充当前验收状态总览:`reports_h100_acceptance_current_status_20260523.md`,把单节点、多机 NCCL、跨节点 RDMA、环境等价性和阻塞项合并到一份中文总表。
|
||||||
- 已补充收尾检查清单:`reports_h100_acceptance_closure_checklist_20260523.md`,明确哪些工作可以阶段性交付、哪些验收门禁仍不能关闭。
|
- 已补充收尾检查清单:`reports_h100_acceptance_closure_checklist_20260523.md`,明确哪些工作可以阶段性交付、哪些验收门禁仍不能关闭。
|
||||||
|
- 已补充网络/硬件/环境侧闭环请求:`reports_h100_network_hardware_escalation_request_20260523.md`,用于让责任侧回填 rail、plugin/SHARP、跨 Leaf 和新阈值口径。
|
||||||
- 2 机 1/2/4 GPU per node 档位已接近 PDF 参考值,但严格按阈值仍 FAIL。
|
- 2 机 1/2/4 GPU per node 档位已接近 PDF 参考值,但严格按阈值仍 FAIL。
|
||||||
- 2 机 8 GPU 档位仍未达到 PDF 参考值:
|
- 2 机 8 GPU 档位仍未达到 PDF 参考值:
|
||||||
- allreduce 实测 `353.85 GB/s busbw`,PDF 目标 `491.84 GB/s`。
|
- allreduce 实测 `353.85 GB/s busbw`,PDF 目标 `491.84 GB/s`。
|
||||||
@ -25,13 +26,14 @@
|
|||||||
|---:|---|---|
|
|---:|---|---|
|
||||||
| 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前 H100 验收总览,汇总单节点、多机 NCCL、跨节点 RDMA 和阻塞项 |
|
| 1 | `reports_h100_acceptance_current_status_20260523.md` | 当前 H100 验收总览,汇总单节点、多机 NCCL、跨节点 RDMA 和阻塞项 |
|
||||||
| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 |
|
| 2 | `reports_h100_acceptance_closure_checklist_20260523.md` | 收尾检查清单:可交付项、未关闭门禁、最短收尾路径 |
|
||||||
| 3 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 |
|
| 3 | `reports_h100_network_hardware_escalation_request_20260523.md` | 给网络/硬件/环境侧的闭环请求和回填表 |
|
||||||
| 4 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP |
|
| 4 | `reports_multinode_nccl_handoff_plan_20260523.md` | 给网络/硬件/环境侧的交接计划,包含决策树、要问的问题和复跑命令 |
|
||||||
| 5 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 |
|
| 5 | `reports_multinode_nccl_environment_gap_20260523.md` | 说明当前环境为什么不能证明与 PDF 等价,重点是 4 x 400G rail 和缺少 NCCL net plugin / SHARP |
|
||||||
| 6 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 |
|
| 6 | `reports_multinode_nccl_artifact_signal_analysis_20260523.md` | 最新 artifacts 信号分析,确认 IB/GDRDMA/HCA 使用情况和 plugin/SHARP 缺口 |
|
||||||
| 7 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum |
|
| 7 | `reports_multinode_nccl_all_collectives_run_20260523.md` | 多机多卡 2x8 六项 collective 补测结果,补齐单机 test all 的 NCCL 覆盖面 |
|
||||||
| 8 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 |
|
| 8 | `reports_multinode_nccl_all_collectives_artifacts_manifest_20260523_120144.md` | 多机多卡 2x8 六项 collective artifacts manifest 和 checksum |
|
||||||
| 9 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep |
|
| 9 | `reports_multinode_nccl_pdf_matrix_run_20260523.md` | 最新正式多机多卡 PDF matrix 结果摘要 |
|
||||||
|
| 10 | `reports_multinode_nccl_deep_diagnose_run_20260523.md` | 本轮完整深度诊断复跑结果,包含 counter、GRAPH、PXN sweep |
|
||||||
|
|
||||||
## 关键脚本
|
## 关键脚本
|
||||||
|
|
||||||
@ -105,6 +107,7 @@ OUT_DIR=/root/test_gpu_scripts/reports/nccl_deep_diag_plugin_check_$(date +%Y%m%
|
|||||||
/root/test_gpu_scripts/reports_multinode_nccl_handoff_plan_20260523.md
|
/root/test_gpu_scripts/reports_multinode_nccl_handoff_plan_20260523.md
|
||||||
/root/test_gpu_scripts/reports_h100_acceptance_current_status_20260523.md
|
/root/test_gpu_scripts/reports_h100_acceptance_current_status_20260523.md
|
||||||
/root/test_gpu_scripts/reports_h100_acceptance_closure_checklist_20260523.md
|
/root/test_gpu_scripts/reports_h100_acceptance_closure_checklist_20260523.md
|
||||||
|
/root/test_gpu_scripts/reports_h100_network_hardware_escalation_request_20260523.md
|
||||||
/root/test_gpu_scripts/reports_multinode_nccl_environment_gap_20260523.md
|
/root/test_gpu_scripts/reports_multinode_nccl_environment_gap_20260523.md
|
||||||
/root/test_gpu_scripts/reports_multinode_nccl_artifact_signal_analysis_20260523.md
|
/root/test_gpu_scripts/reports_multinode_nccl_artifact_signal_analysis_20260523.md
|
||||||
/root/test_gpu_scripts/reports_multinode_nccl_all_collectives_run_20260523.md
|
/root/test_gpu_scripts/reports_multinode_nccl_all_collectives_run_20260523.md
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user