diff --git a/reports_multinode_nccl_counter_probe_20260523.md b/reports_multinode_nccl_counter_probe_20260523.md index 9ccc52c..debc0bc 100644 --- a/reports_multinode_nccl_counter_probe_20260523.md +++ b/reports_multinode_nccl_counter_probe_20260523.md @@ -78,3 +78,4 @@ NCCL 输出: 1. 8 卡 allreduce 当前不是软件参数小调能解决的问题,性能已经贴近当前 4 条 400G rail 的物理带宽上限。 2. 8 卡 alltoall 仍明显异常,且不是 HCA 顺序问题;需要继续从 NCCL alltoall rail 分布、网络路由/拥塞、NCCL net plugin/SHARP、交换机侧策略排查。 3. 如果验收必须达到 PDF 的 2 机 16 卡 `491.84/76.54 GB/s`,需要确认当前两台机器是否具备与 PDF 参考环境同等的有效跨节点 rail 数量和交换网络能力。 +4. 两台机器当前均未发现 `libnccl-net.so` 或 SHARP/HCOLL 包,NCCL 使用 internal IB plugin;如果目标值依赖 NCCL net plugin/SHARP,需要先补齐对应运行环境。 diff --git a/reports_multinode_nccl_diagnosis_20260523.md b/reports_multinode_nccl_diagnosis_20260523.md index 42d7b52..fce5084 100644 --- a/reports_multinode_nccl_diagnosis_20260523.md +++ b/reports_multinode_nccl_diagnosis_20260523.md @@ -302,6 +302,29 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875 同一测试窗口内端口计数器显示 alltoall 流量分布不均衡:`mlx5_0` 和 `mlx5_6` 的流量约 `885 GB`,`mlx5_1` 和 `mlx5_7` 约 `295 GB`,约为三倍差距。继续调换 `NCCL_IB_HCA` 顺序后,8 卡 alltoall 仍稳定在 `30.02-30.07 GB/s`,说明不是简单 HCA 列表顺序问题。 +### 9. NCCL net plugin / SHARP 状态 + +两台机器上均未找到: + +- `libnccl-net.so` +- `libsharp*` +- SHARP/HCOLL 相关 deb 包 + +当前仅看到 UCX 包: + +```text +ucx 1.20.0-1.20260211.d9a4f352d.2601100 +``` + +apt 源里与 NCCL 直接相关的包只有: + +```text +libnccl2 +libnccl-dev +``` + +因此当前 NCCL 日志里的 `Could not find: libnccl-net.so` 是真实环境缺失,不是脚本漏配路径。当前运行走的是 NCCL internal IB plugin;如果要继续追 8 卡 alltoall 或 PDF 2 机 16 卡参考值,需要补齐匹配当前 OFED/driver/CUDA/NCCL 的 NCCL net plugin/SHARP 环境,或由网络侧确认该集群不依赖这些组件也能达到目标值。 + ## 当前阻塞 ### 阻塞 1:当前生产 NCCL 版本过旧,GDR 被禁用 @@ -332,6 +355,7 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875 - 8 卡 allreduce `algbw ~= 189 GB/s`,接近当前 4 x 400G HCA 的理论单向合计 `200 GB/s` - PDF 8 卡 allreduce `491.84 GB/s busbw` 反推需要约 `262 GB/s algbw`,超过当前 4 x 400G 的物理单向总带宽 - 8 卡 alltoall 端口计数器显示 rail 分布不均,且 HCA 顺序 sweep 无改善 +- 当前环境缺失 NCCL net plugin/SHARP,NCCL 只能使用 internal IB plugin ### 阻塞 3:`nccl-gpu-2` SSH 存在外部连接压力