多机 NCCL 8 卡 alltoall 网络参数 sweep

日期：2026-05-23
主机：aikubeworker0012 / 172.72.8.12，aikubeworker0016 / 172.72.8.16
NCCL：临时 2.27.7+cuda12.4
测试：2 nodes x 8 GPUs，alltoall_perf -b 16G -e 16G
HCA：mlx5_0,mlx5_1,mlx5_6,mlx5_7

结论

NCCL_PXN_DISABLE=1 是本轮唯一有效正向参数，可以把 8 卡 alltoall 从约 30.06 GB/s 提升到约 37.24 GB/s。纳入正式 PDF 矩阵配置后，8 卡 alltoall 原始报告结果为 36.70 GB/s peak / 36.74 GB/s avg。

这个提升有实际价值，但仍远低于 PDF 参考 76.54 GB/s。其他参数没有改善，部分明显变差：

Case	Avg Bus BW	结论
baseline	`30.0633 GB/s`	基线
`NCCL_PXN_DISABLE=1`	`37.2421 GB/s`	有效提升
`NCCL_P2P_PXN_LEVEL=0`	`20.1205 GB/s`	明显变差
`NCCL_P2P_PXN_LEVEL=1`	`30.0588 GB/s`	无改善
`NCCL_P2P_PXN_LEVEL=2`	`30.0437 GB/s`	无改善
`NCCL_NET_SHARED_COMMS=0`	`27.3889 GB/s`	变差
`NCCL_NET_SHARED_BUFFERS=0`	`28.2389 GB/s`	变差
`NCCL_NET_SHARED_COMMS=0 NCCL_NET_SHARED_BUFFERS=0`	`28.2279 GB/s`	变差
`NCCL_NCHANNELS_PER_NET_PEER=2`	`30.0281 GB/s`	无改善
`NCCL_NCHANNELS_PER_NET_PEER=4`	`29.9802 GB/s`	无改善
`NCCL_IB_ADAPTIVE_ROUTING=1 NCCL_IB_AR_THRESHOLD=0`	`30.0526 GB/s`	无改善
`NCCL_IB_ADAPTIVE_ROUTING=0`	`30.0535 GB/s`	无改善
`NCCL_IB_PCI_RELAXED_ORDERING=0`	未完成	明显异常，不建议

正式配置更新

configs/multinode_nccl_nccl227_pdf_matrix.yaml 已对 2 nodes x 8 GPUs 的 alltoall 增加：

op_env:
  alltoall:
    NCCL_PXN_DISABLE: 1

正式矩阵报告：reports_multinode_nccl_pdf_matrix_nccl227.md

Topology	alltoall Peak Bus BW	alltoall Avg Bus BW	PDF Reference	Status
2 nodes x 8 GPUs	`36.70 GB/s`	`36.74 GB/s`	`76.54 GB/s`	FAIL

判断

PXN 在当前拓扑下对 8 卡 alltoall 有负面影响，禁用后有约 22-24% 提升。
禁用 PXN 后仍只有 PDF 目标的一半左右，剩余差距不是单一 NCCL 环境变量可以补齐。
后续重点仍应放在 NCCL net plugin/SHARP、交换网络策略、路由/拥塞和 alltoall rail 分布。

2.3 KiB Raw Blame History Unescape Escape

多机 NCCL 8 卡 alltoall 网络参数 sweep

结论

正式配置更新

判断

2.3 KiB

Raw Blame History