NVIDIA 发表 7nm 製程新一代「安培」架构 AI 高效能运算 GPU 核心「A100」
时间:2020-05-15
作者:小编
NVIDIA 于 5 月 14 日正式发表针对人工智慧与高效能运算所研发的新一代「NVIDIA Ampere(安培)」架构 GPU 核心「NVIDIA A100」,能提供比前一代「Volta(伏打)」架构 GPU 核心 20 倍的运算效能。
NVIDIA A100
A100 採用新一代 Ampere 架构,以台积电 7nm 製程打造,内含 540 亿个电晶体,晶片尺寸达到史上最大的 826mm^2。配备 40MB L2 快取记忆体,以及由三星提供、频宽高达每秒 1.5TB 的 40GB HBM2 记忆体。
NVIDIA A100 规格概要
- Tensor 核心 432 个
- FP64 最佳效能 9.7 TFLOPS
- FP64 Tensor 核心最佳效能 19.5 TFLOPS
- FP32 最佳效能 19.5 TFLOPS
- FP32 Tensor 核心最佳效能 156 TFLOPS / 312 TFLOPS ※
- BFLOAT16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS ※
- FP16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS ※
- INT8 Tensor 核心最佳效能 624 TOPS / 1248 TOPS ※
- INT4 Tensor 核心最佳效能 1248 TOPS / 2496 TOPS ※
- GPU 记忆体 40 GB
- GPU 记忆体频宽 每秒 1555 GB
- 互连 NVIDIA NVLink 每秒 600 GB
- PCIe Gen4 每秒 64 GB
- 多执行个体 GPU 最高到 7 个 5 GB 不同容量的执行个体
- 尺寸规格 NVIDIA HGX A100 使用 4 / 8 SXM
- 最大 TDP 功耗 400W
※ 稀疏优化
A100 导入第三代 Tensor 核心,採用全新 TF32 精度与标准 FP64 精度以加速并简化人工智慧应用,同时将 Tensor 核心效能拓展至 HPC。当使用 TF32 时,无需更改程式码即可将 AI 速度提升至最高 10 倍。透过 NVIDIA 自动混合精度运算,只要多加一行程式码就能将效能提升 2 倍。支援 BF16、INT8 与 INT4 格式。
A100 支援多执行个体 GPU 技术,能将单一 GPU 分割成最多 7 个独立运作的虚拟 GPU,各自在硬体中完全独立受到保护,并具备个别的高频宽记忆体、快取与运算核心,提供更具弹性的运用方式。
A100 支援第三代 NVLink,将 GPU 与 GPU 之间的连接频宽翻倍至每秒 600GB,比 PCIe Gen4 的速度快将近 10 倍。当搭配最新一代 NVSwitch 时,伺服器中所有 GPU 都能透过 NVLink 全速相互交流,执行极高速的资料传输。还可以搭配 NVIDIA Mellanox ConnectX-6 Dx SmartNIC 来提供每秒 20 GB 的网路连线频宽。
NVIDIA 同时发表配备 A100 的 AI 运算系统「NVIDIA DGX A100」,内含 8 组以 NVLink 互连的 A100,记忆体总频宽每秒 12.4TB、总容量 320GB,最高可提供 5PFLOPS 的处理效能,价格 19 万 9000 美元。
此外还发表了配备 1 组 A100 的边缘 AI 运算加速卡「NVIDIA EGX A100」。
NVIDIA EGX A100
相关文章