如何选择适合的GPU进行大模型训练？A100 vs H100 vs B200实测对比

选择适合的大模型（LLM）训练 GPU 需要在算力、显存带宽、互联效率及成本之间取得平衡。以下是 NVIDIA A100、H100 和 B200 的实测与规格对比分析。

1. 核心规格与性能实测对比

特性	A100 (Ampere)	H100 (Hopper)	B200 (Blackwell)
显存容量	80GB HBM2e	80GB HBM3	192GB HBM3e
显存带宽	2 TB/s	3.35 TB/s	8 TB/s
FP16/BF16 训练算力	312 TFLOPS	989 TFLOPS	2,250 TFLOPS
FP8 训练支持	不支持	支持	支持（性能更强）
NVLink 互联带宽	600 GB/s	900 GB/s	1.8 TB/s
训练性能（实测）	基准 (1x)	A100 的 2-3 倍	H100 的约 3 倍
典型功耗	400W	700W	1000W

A100 (性价比之选)：依然是大规模分布式训练的可靠选择，尤其适合显存压力不大的中型模型（如 7B-30B）。其优势在于市场供应充足，且单卡租用成本最低。
H100 (当前主流标配)：引入了 Transformer Engine 专门加速大模型训练。实测显示，H100 训练 Transformer 架构模型的速度比 A100 快 2-3 倍；对于 Llama 2-70B 等模型，其推理速度提升尤为显著。
B200 (未来性能王者)：并非简单的“加强版”，而是重构的基础设施。
算力飞跃：单卡算力是 H100 的 2 倍以上，训练性能提升约 3 倍。
- 海量显存： 192GB 的超大显存配合 8TB/s 的带宽，使得单台 B200 节点可以承载以往需要多台服务器才能运行的超大规模参数模型（如万亿级模型）。
- 能效：尽管功耗高达 1000W，但在处理同等规模任务时，其能耗比显著优于前代。