# 多机 NCCL 8 卡 alltoall 网络参数 sweep

- 日期：2026-05-23
- 主机：`aikubeworker0012` / `172.72.8.12`，`aikubeworker0016` / `172.72.8.16`
- NCCL：临时 `2.27.7+cuda12.4`
- 测试：2 nodes x 8 GPUs，`alltoall_perf -b 16G -e 16G`
- HCA：`mlx5_0,mlx5_1,mlx5_6,mlx5_7`

## 结论

`NCCL_PXN_DISABLE=1` 是本轮唯一有效正向参数，可以把 8 卡 alltoall 从约 `30.06 GB/s` 提升到约 `37.24 GB/s`。纳入正式 PDF 矩阵配置后，8 卡 alltoall 原始报告结果为 `36.70 GB/s peak` / `36.74 GB/s avg`。

这个提升有实际价值，但仍远低于 PDF 参考 `76.54 GB/s`。其他参数没有改善，部分明显变差：

| Case | Avg Bus BW | 结论 |
|------|------------|------|
| baseline | `30.0633 GB/s` | 基线 |
| `NCCL_PXN_DISABLE=1` | `37.2421 GB/s` | 有效提升 |
| `NCCL_P2P_PXN_LEVEL=0` | `20.1205 GB/s` | 明显变差 |
| `NCCL_P2P_PXN_LEVEL=1` | `30.0588 GB/s` | 无改善 |
| `NCCL_P2P_PXN_LEVEL=2` | `30.0437 GB/s` | 无改善 |
| `NCCL_NET_SHARED_COMMS=0` | `27.3889 GB/s` | 变差 |
| `NCCL_NET_SHARED_BUFFERS=0` | `28.2389 GB/s` | 变差 |
| `NCCL_NET_SHARED_COMMS=0 NCCL_NET_SHARED_BUFFERS=0` | `28.2279 GB/s` | 变差 |
| `NCCL_NCHANNELS_PER_NET_PEER=2` | `30.0281 GB/s` | 无改善 |
| `NCCL_NCHANNELS_PER_NET_PEER=4` | `29.9802 GB/s` | 无改善 |
| `NCCL_IB_ADAPTIVE_ROUTING=1 NCCL_IB_AR_THRESHOLD=0` | `30.0526 GB/s` | 无改善 |
| `NCCL_IB_ADAPTIVE_ROUTING=0` | `30.0535 GB/s` | 无改善 |
| `NCCL_IB_PCI_RELAXED_ORDERING=0` | 未完成 | 明显异常，不建议 |

## 正式配置更新

`configs/multinode_nccl_nccl227_pdf_matrix.yaml` 已对 2 nodes x 8 GPUs 的 alltoall 增加：

```yaml
op_env:
  alltoall:
    NCCL_PXN_DISABLE: 1
```

正式矩阵报告：`reports_multinode_nccl_pdf_matrix_nccl227.md`

| Topology | alltoall Peak Bus BW | alltoall Avg Bus BW | PDF Reference | Status |
|----------|----------------------|---------------------|---------------|--------|
| 2 nodes x 8 GPUs | `36.70 GB/s` | `36.74 GB/s` | `76.54 GB/s` | FAIL |

## 判断

1. PXN 在当前拓扑下对 8 卡 alltoall 有负面影响，禁用后有约 `22-24%` 提升。
2. 禁用 PXN 后仍只有 PDF 目标的一半左右，剩余差距不是单一 NCCL 环境变量可以补齐。
3. 后续重点仍应放在 NCCL net plugin/SHARP、交换网络策略、路由/拥塞和 alltoall rail 分布。