Clean report whitespace

This commit is contained in:
cs 2026-05-26 00:15:48 +08:00
parent 4dddab27b3
commit 7ec2da18bc
5 changed files with 4 additions and 8 deletions

View File

@ -359,4 +359,3 @@ flowchart TD
```
因此,多机多卡测试不是一个命令,而是一条验证链路。

View File

@ -1,8 +1,8 @@
# FP8 GEMM 路径对比测试报告
测试日期2026-05-25
测试节点aikubeworker0012、aikubeworker0016
测试 GPUNVIDIA H100 80GB HBM3
测试日期2026-05-25
测试节点aikubeworker0012、aikubeworker0016
测试 GPUNVIDIA H100 80GB HBM3
测试目标:对比同一 FP8 GEMM 规模下 PyTorch eager、CUDA Graph、Transformer Engine 和 direct cuBLASLt 的性能差异。
## 一、测试结论
@ -166,4 +166,3 @@ E 路径 cuBLASLt 算法信息:
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_paths_combined_aikubeworker0012_20260525_045408.json` | aikubeworker0012 A-E 原始结果 |
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_paths_combined_aikubeworker0016_20260525_050048.json` | aikubeworker0016 A-E 原始结果 |
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_path_comparison_20260525.md` | 本中文汇总报告 |

View File

@ -120,4 +120,3 @@ NCCL 的 `busbw` 是 collective 通信的逻辑折算带宽,不等同于单条
3. 单机 8 卡 NCCL 通信在两台节点上结果接近,未观察到明显节点间异常差异。
4. 多机 2x8 NCCL 正确性通过,跨节点通信功能正常。
5. 当前多机通信结果应按 4x400Gbps IB rail 环境解释;若后续需要对齐 8x400Gbps 环境,应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。

View File

@ -99,4 +99,3 @@ ol {
li {
margin: 3px 0;
}

View File

@ -1,6 +1,6 @@
# H100 单节点 test all 中文汇总
生成时间2026-05-23
生成时间2026-05-23
测试范围:`aikubeworker0012``aikubeworker0016` 单节点 `python gpu_tester.py --test all --report --format md`
原始报告: