Clean report whitespace
This commit is contained in:
parent
4dddab27b3
commit
7ec2da18bc
@ -359,4 +359,3 @@ flowchart TD
|
||||
```
|
||||
|
||||
因此,多机多卡测试不是一个命令,而是一条验证链路。
|
||||
|
||||
|
||||
@ -1,8 +1,8 @@
|
||||
# FP8 GEMM 路径对比测试报告
|
||||
|
||||
测试日期:2026-05-25
|
||||
测试节点:aikubeworker0012、aikubeworker0016
|
||||
测试 GPU:NVIDIA H100 80GB HBM3
|
||||
测试日期:2026-05-25
|
||||
测试节点:aikubeworker0012、aikubeworker0016
|
||||
测试 GPU:NVIDIA H100 80GB HBM3
|
||||
测试目标:对比同一 FP8 GEMM 规模下 PyTorch eager、CUDA Graph、Transformer Engine 和 direct cuBLASLt 的性能差异。
|
||||
|
||||
## 一、测试结论
|
||||
@ -166,4 +166,3 @@ E 路径 cuBLASLt 算法信息:
|
||||
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_paths_combined_aikubeworker0012_20260525_045408.json` | aikubeworker0012 A-E 原始结果 |
|
||||
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_paths_combined_aikubeworker0016_20260525_050048.json` | aikubeworker0016 A-E 原始结果 |
|
||||
| `/Users/d-robotics/lab/test_gpu_scripts/reports_fp8_path_comparison_20260525.md` | 本中文汇总报告 |
|
||||
|
||||
|
||||
@ -120,4 +120,3 @@ NCCL 的 `busbw` 是 collective 通信的逻辑折算带宽,不等同于单条
|
||||
3. 单机 8 卡 NCCL 通信在两台节点上结果接近,未观察到明显节点间异常差异。
|
||||
4. 多机 2x8 NCCL 正确性通过,跨节点通信功能正常。
|
||||
5. 当前多机通信结果应按 4x400Gbps IB rail 环境解释;若后续需要对齐 8x400Gbps 环境,应先确认 rail 数量、NCCL net plugin / SHARP、交换网络策略等配置一致。
|
||||
|
||||
|
||||
@ -99,4 +99,3 @@ ol {
|
||||
li {
|
||||
margin: 3px 0;
|
||||
}
|
||||
|
||||
|
||||
@ -1,6 +1,6 @@
|
||||
# H100 单节点 test all 中文汇总
|
||||
|
||||
生成时间:2026-05-23
|
||||
生成时间:2026-05-23
|
||||
测试范围:`aikubeworker0012`、`aikubeworker0016` 单节点 `python gpu_tester.py --test all --report --format md`
|
||||
|
||||
原始报告:
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user