2.3 KiB
2.3 KiB
多机 NCCL 8 卡 alltoall 网络参数 sweep
- 日期:2026-05-23
- 主机:
aikubeworker0012/172.72.8.12,aikubeworker0016/172.72.8.16 - NCCL:临时
2.27.7+cuda12.4 - 测试:2 nodes x 8 GPUs,
alltoall_perf -b 16G -e 16G - HCA:
mlx5_0,mlx5_1,mlx5_6,mlx5_7
结论
NCCL_PXN_DISABLE=1 是本轮唯一有效正向参数,可以把 8 卡 alltoall 从约 30.06 GB/s 提升到约 37.24 GB/s。纳入正式 PDF 矩阵配置后,8 卡 alltoall 原始报告结果为 36.70 GB/s peak / 36.74 GB/s avg。
这个提升有实际价值,但仍远低于 PDF 参考 76.54 GB/s。其他参数没有改善,部分明显变差:
| Case | Avg Bus BW | 结论 |
|---|---|---|
| baseline | 30.0633 GB/s |
基线 |
NCCL_PXN_DISABLE=1 |
37.2421 GB/s |
有效提升 |
NCCL_P2P_PXN_LEVEL=0 |
20.1205 GB/s |
明显变差 |
NCCL_P2P_PXN_LEVEL=1 |
30.0588 GB/s |
无改善 |
NCCL_P2P_PXN_LEVEL=2 |
30.0437 GB/s |
无改善 |
NCCL_NET_SHARED_COMMS=0 |
27.3889 GB/s |
变差 |
NCCL_NET_SHARED_BUFFERS=0 |
28.2389 GB/s |
变差 |
NCCL_NET_SHARED_COMMS=0 NCCL_NET_SHARED_BUFFERS=0 |
28.2279 GB/s |
变差 |
NCCL_NCHANNELS_PER_NET_PEER=2 |
30.0281 GB/s |
无改善 |
NCCL_NCHANNELS_PER_NET_PEER=4 |
29.9802 GB/s |
无改善 |
NCCL_IB_ADAPTIVE_ROUTING=1 NCCL_IB_AR_THRESHOLD=0 |
30.0526 GB/s |
无改善 |
NCCL_IB_ADAPTIVE_ROUTING=0 |
30.0535 GB/s |
无改善 |
NCCL_IB_PCI_RELAXED_ORDERING=0 |
未完成 | 明显异常,不建议 |
正式配置更新
configs/multinode_nccl_nccl227_pdf_matrix.yaml 已对 2 nodes x 8 GPUs 的 alltoall 增加:
op_env:
alltoall:
NCCL_PXN_DISABLE: 1
正式矩阵报告:reports_multinode_nccl_pdf_matrix_nccl227.md
| Topology | alltoall Peak Bus BW | alltoall Avg Bus BW | PDF Reference | Status |
|---|---|---|---|---|
| 2 nodes x 8 GPUs | 36.70 GB/s |
36.74 GB/s |
76.54 GB/s |
FAIL |
判断
- PXN 在当前拓扑下对 8 卡 alltoall 有负面影响,禁用后有约
22-24%提升。 - 禁用 PXN 后仍只有 PDF 目标的一半左右,剩余差距不是单一 NCCL 环境变量可以补齐。
- 后续重点仍应放在 NCCL net plugin/SHARP、交换网络策略、路由/拥塞和 alltoall rail 分布。