Document missing NCCL network plugin
This commit is contained in:
parent
e756f0b7b4
commit
ce363b2f7a
@ -78,3 +78,4 @@ NCCL 输出:
|
||||
1. 8 卡 allreduce 当前不是软件参数小调能解决的问题,性能已经贴近当前 4 条 400G rail 的物理带宽上限。
|
||||
2. 8 卡 alltoall 仍明显异常,且不是 HCA 顺序问题;需要继续从 NCCL alltoall rail 分布、网络路由/拥塞、NCCL net plugin/SHARP、交换机侧策略排查。
|
||||
3. 如果验收必须达到 PDF 的 2 机 16 卡 `491.84/76.54 GB/s`,需要确认当前两台机器是否具备与 PDF 参考环境同等的有效跨节点 rail 数量和交换网络能力。
|
||||
4. 两台机器当前均未发现 `libnccl-net.so` 或 SHARP/HCOLL 包,NCCL 使用 internal IB plugin;如果目标值依赖 NCCL net plugin/SHARP,需要先补齐对应运行环境。
|
||||
|
||||
@ -302,6 +302,29 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875
|
||||
|
||||
同一测试窗口内端口计数器显示 alltoall 流量分布不均衡:`mlx5_0` 和 `mlx5_6` 的流量约 `885 GB`,`mlx5_1` 和 `mlx5_7` 约 `295 GB`,约为三倍差距。继续调换 `NCCL_IB_HCA` 顺序后,8 卡 alltoall 仍稳定在 `30.02-30.07 GB/s`,说明不是简单 HCA 列表顺序问题。
|
||||
|
||||
### 9. NCCL net plugin / SHARP 状态
|
||||
|
||||
两台机器上均未找到:
|
||||
|
||||
- `libnccl-net.so`
|
||||
- `libsharp*`
|
||||
- SHARP/HCOLL 相关 deb 包
|
||||
|
||||
当前仅看到 UCX 包:
|
||||
|
||||
```text
|
||||
ucx 1.20.0-1.20260211.d9a4f352d.2601100
|
||||
```
|
||||
|
||||
apt 源里与 NCCL 直接相关的包只有:
|
||||
|
||||
```text
|
||||
libnccl2
|
||||
libnccl-dev
|
||||
```
|
||||
|
||||
因此当前 NCCL 日志里的 `Could not find: libnccl-net.so` 是真实环境缺失,不是脚本漏配路径。当前运行走的是 NCCL internal IB plugin;如果要继续追 8 卡 alltoall 或 PDF 2 机 16 卡参考值,需要补齐匹配当前 OFED/driver/CUDA/NCCL 的 NCCL net plugin/SHARP 环境,或由网络侧确认该集群不依赖这些组件也能达到目标值。
|
||||
|
||||
## 当前阻塞
|
||||
|
||||
### 阻塞 1:当前生产 NCCL 版本过旧,GDR 被禁用
|
||||
@ -332,6 +355,7 @@ busbw = algbw * 2 * (nranks - 1) / nranks = algbw * 1.875
|
||||
- 8 卡 allreduce `algbw ~= 189 GB/s`,接近当前 4 x 400G HCA 的理论单向合计 `200 GB/s`
|
||||
- PDF 8 卡 allreduce `491.84 GB/s busbw` 反推需要约 `262 GB/s algbw`,超过当前 4 x 400G 的物理单向总带宽
|
||||
- 8 卡 alltoall 端口计数器显示 rail 分布不均,且 HCA 顺序 sweep 无改善
|
||||
- 当前环境缺失 NCCL net plugin/SHARP,NCCL 只能使用 internal IB plugin
|
||||
|
||||
### 阻塞 3:`nccl-gpu-2` SSH 存在外部连接压力
|
||||
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user