Document missing NCCL network plugin

This commit is contained in:
cs 2026-05-23 16:43:25 +08:00
parent e756f0b7b4
commit ce363b2f7a
2 changed files with 25 additions and 0 deletions

View File

@ -78,3 +78,4 @@ NCCL 输出:
1. 8 卡 allreduce 当前不是软件参数小调能解决的问题,性能已经贴近当前 4 条 400G rail 的物理带宽上限。
2. 8 卡 alltoall 仍明显异常,且不是 HCA 顺序问题;需要继续从 NCCL alltoall rail 分布、网络路由/拥塞、NCCL net plugin/SHARP、交换机侧策略排查。
3. 如果验收必须达到 PDF 的 2 机 16 卡 `491.84/76.54 GB/s`,需要确认当前两台机器是否具备与 PDF 参考环境同等的有效跨节点 rail 数量和交换网络能力。
4. 两台机器当前均未发现 `libnccl-net.so` 或 SHARP/HCOLL 包NCCL 使用 internal IB plugin如果目标值依赖 NCCL net plugin/SHARP需要先补齐对应运行环境。

View File

@ -302,6 +302,29 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875
同一测试窗口内端口计数器显示 alltoall 流量分布不均衡:`mlx5_0``mlx5_6` 的流量约 `885 GB``mlx5_1``mlx5_7``295 GB`,约为三倍差距。继续调换 `NCCL_IB_HCA` 顺序后8 卡 alltoall 仍稳定在 `30.02-30.07 GB/s`,说明不是简单 HCA 列表顺序问题。
### 9. NCCL net plugin / SHARP 状态
两台机器上均未找到:
- `libnccl-net.so`
- `libsharp*`
- SHARP/HCOLL 相关 deb 包
当前仅看到 UCX 包:
```text
ucx 1.20.0-1.20260211.d9a4f352d.2601100
```
apt 源里与 NCCL 直接相关的包只有:
```text
libnccl2
libnccl-dev
```
因此当前 NCCL 日志里的 `Could not find: libnccl-net.so` 是真实环境缺失,不是脚本漏配路径。当前运行走的是 NCCL internal IB plugin如果要继续追 8 卡 alltoall 或 PDF 2 机 16 卡参考值,需要补齐匹配当前 OFED/driver/CUDA/NCCL 的 NCCL net plugin/SHARP 环境,或由网络侧确认该集群不依赖这些组件也能达到目标值。
## 当前阻塞
### 阻塞 1当前生产 NCCL 版本过旧GDR 被禁用
@ -332,6 +355,7 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875
- 8 卡 allreduce `algbw ~= 189 GB/s`,接近当前 4 x 400G HCA 的理论单向合计 `200 GB/s`
- PDF 8 卡 allreduce `491.84 GB/s busbw` 反推需要约 `262 GB/s algbw`,超过当前 4 x 400G 的物理单向总带宽
- 8 卡 alltoall 端口计数器显示 rail 分布不均,且 HCA 顺序 sweep 无改善
- 当前环境缺失 NCCL net plugin/SHARPNCCL 只能使用 internal IB plugin
### 阻塞 3`nccl-gpu-2` SSH 存在外部连接压力