|
|
dd77a882f1
|
feat: 跨机 RDMA 并入 rdma_test.py + H800 算力门槛对齐 H100
- modules/rdma_test.py: 新增 SSH 编排的跨机 RDMA(run_cross_node /
_cross_node_perftest / 解析器),从 client 端逐设备拉起对端 perftest
server 跑本地 client,替代已删除的 scripts/rdma_cross_node.sh;两机
4×NDR400 实测全 PASS(~387-392 Gb/s,~2 µs)。
- configs/default.yaml: 新增 rdma.cross_node 配置块(默认 enabled:false)。
- modules/gpu_specs.py: H800 PASS 门槛对齐 H100 实测地板
(tf32 400->385, bf16 720->730, fp8 1400->1200);H800=H100 硅片,
PyTorch tensorwise fp8 天花板 ~1310,原 1400 不可达。
Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
|
2026-05-25 19:38:43 +08:00 |
|