test_gpu_scripts

han.zhao/test_gpu_scripts

Fork 0

Commit Graph

Author	SHA1	Message	Date
zulifeng	dd77a882f1	feat: 跨机 RDMA 并入 rdma_test.py + H800 算力门槛对齐 H100 - modules/rdma_test.py: 新增 SSH 编排的跨机 RDMA(run_cross_node / _cross_node_perftest / 解析器),从 client 端逐设备拉起对端 perftest server 跑本地 client,替代已删除的 scripts/rdma_cross_node.sh;两机 4×NDR400 实测全 PASS(~387-392 Gb/s,~2 µs)。 - configs/default.yaml: 新增 rdma.cross_node 配置块(默认 enabled:false)。 - modules/gpu_specs.py: H800 PASS 门槛对齐 H100 实测地板 (tf32 400->385, bf16 720->730, fp8 1400->1200);H800=H100 硅片, PyTorch tensorwise fp8 天花板 ~1310,原 1400 不可达。 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-25 19:38:43 +08:00
zulifeng	375d439abb	feat: 新增 H20 支持、优化算力测试精度并修复多项稳定性问题 - gpu_specs: 新增 H20/H20-3e (中国合规版 H200) 规格定义，并修复 GPU 名称匹配顺序，避免 "H200" 被 "H20" 子串误匹配 - benchmark(compute): 引入 L2 cache 规避的 matrix pool 轮换 + 可选 torch.compile(max-autotune)，FP8 增加 _scaled_mm 探测，显著提升 FP16/BF16/FP8 实测吞吐准确性 - benchmark(memory): nvbandwidth 增加 --disableAffinity 规避 fabricmanager NVML 不兼容；全 0 结果时自动回退到 PyTorch； D2D 平均值排除对角线零值 - nccl: 各通信操作 (AllReduce/AllToAll/Broadcast 等) 使用独立带宽阈值比例，避免 AllToAll 误报 WARN - rdma: 仅按 link_layer=InfiniBand 过滤端口，无 IB 硬件或全 DOWN 时直接 SKIP 而非报错 - stress: 计算矩阵尺寸封顶 4096，并改为先并发派发再统一同步，修复 8 卡串行执行导致 duration 严重超时的问题 - report: 兼容 RDMA SKIP 状态与 PyTorch 回退场景的 Memory 判定，避免回退结果被误判为 FAIL - config: 新增 benchmark.compute.use_compile 开关 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-12 21:41:46 +08:00
qinyusen	1c6ba4809a	add: stress test (gpu-burn) and RDMA/IB test modules Co-authored-by: Sisyphus <clio-agent@sisyphuslabs.ai>	2026-04-25 17:23:57 +08:00

Author

SHA1

Message

Date

zulifeng

dd77a882f1

feat: 跨机 RDMA 并入 rdma_test.py + H800 算力门槛对齐 H100

- modules/rdma_test.py: 新增 SSH 编排的跨机 RDMA(run_cross_node /
  _cross_node_perftest / 解析器),从 client 端逐设备拉起对端 perftest
  server 跑本地 client,替代已删除的 scripts/rdma_cross_node.sh;两机
  4×NDR400 实测全 PASS(~387-392 Gb/s,~2 µs)。
- configs/default.yaml: 新增 rdma.cross_node 配置块(默认 enabled:false)。
- modules/gpu_specs.py: H800 PASS 门槛对齐 H100 实测地板
  (tf32 400->385, bf16 720->730, fp8 1400->1200);H800=H100 硅片,
  PyTorch tensorwise fp8 天花板 ~1310,原 1400 不可达。

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-25 19:38:43 +08:00

zulifeng

375d439abb

feat: 新增 H20 支持、优化算力测试精度并修复多项稳定性问题

- gpu_specs: 新增 H20/H20-3e (中国合规版 H200) 规格定义，并修复
  GPU 名称匹配顺序，避免 "H200" 被 "H20" 子串误匹配
- benchmark(compute): 引入 L2 cache 规避的 matrix pool 轮换 +
  可选 torch.compile(max-autotune)，FP8 增加 _scaled_mm 探测，
  显著提升 FP16/BF16/FP8 实测吞吐准确性
- benchmark(memory): nvbandwidth 增加 --disableAffinity 规避
  fabricmanager NVML 不兼容；全 0 结果时自动回退到 PyTorch；
  D2D 平均值排除对角线零值
- nccl: 各通信操作 (AllReduce/AllToAll/Broadcast 等) 使用独立
  带宽阈值比例，避免 AllToAll 误报 WARN
- rdma: 仅按 link_layer=InfiniBand 过滤端口，无 IB 硬件或全 DOWN
  时直接 SKIP 而非报错
- stress: 计算矩阵尺寸封顶 4096，并改为先并发派发再统一同步，
  修复 8 卡串行执行导致 duration 严重超时的问题
- report: 兼容 RDMA SKIP 状态与 PyTorch 回退场景的 Memory 判定，
  避免回退结果被误判为 FAIL
- config: 新增 benchmark.compute.use_compile 开关

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-12 21:41:46 +08:00

qinyusen

1c6ba4809a

add: stress test (gpu-burn) and RDMA/IB test modules

Co-authored-by: Sisyphus <clio-agent@sisyphuslabs.ai>

2026-04-25 17:23:57 +08:00

3 Commits