NVIDIA 发表 7nm 製程新一代「安培」架构 AI 高效能运算 GPU 核心「A100」

时间:2020-05-15 作者:小编

　　NVIDIA 于 5 月 14 日正式发表针对人工智慧与高效能运算所研发的新一代「NVIDIA Ampere（安培）」架构 GPU 核心「NVIDIA A100」，能提供比前一代「Volta（伏打）」架构 GPU 核心 20 倍的运算效能。

NVIDIA 发表 7nm 製程新一代「安培」架构 AI 高效能运算 GPU 核心「A100」

NVIDIA A100

　　A100 採用新一代 Ampere 架构，以台积电 7nm 製程打造，内含 540 亿个电晶体，晶片尺寸达到史上最大的 826mm^2。配备 40MB L2 快取记忆体，以及由三星提供、频宽高达每秒 1.5TB 的 40GB HBM2 记忆体。

NVIDIA A100 规格概要

Tensor 核心 432 个
FP64 最佳效能 9.7 TFLOPS
FP64 Tensor 核心最佳效能 19.5 TFLOPS
FP32 最佳效能 19.5 TFLOPS
FP32 Tensor 核心最佳效能 156 TFLOPS / 312 TFLOPS ※
BFLOAT16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS ※
FP16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS ※
INT8 Tensor 核心最佳效能 624 TOPS / 1248 TOPS ※
INT4 Tensor 核心最佳效能 1248 TOPS / 2496 TOPS ※
GPU 记忆体 40 GB
GPU 记忆体频宽每秒 1555 GB
互连 NVIDIA NVLink 每秒 600 GB
PCIe Gen4 每秒 64 GB
多执行个体 GPU 最高到 7 个 5 GB 不同容量的执行个体
尺寸规格 NVIDIA HGX A100 使用 4 / 8 SXM
最大 TDP 功耗 400W

※ 稀疏优化

　　A100 导入第三代 Tensor 核心，採用全新 TF32 精度与标准 FP64 精度以加速并简化人工智慧应用，同时将 Tensor 核心效能拓展至 HPC。当使用 TF32 时，无需更改程式码即可将 AI 速度提升至最高 10 倍。透过 NVIDIA 自动混合精度运算，只要多加一行程式码就能将效能提升 2 倍。支援 BF16、INT8 与 INT4 格式。

　　A100 支援多执行个体 GPU 技术，能将单一 GPU 分割成最多 7 个独立运作的虚拟 GPU，各自在硬体中完全独立受到保护，并具备个别的高频宽记忆体、快取与运算核心，提供更具弹性的运用方式。

　　A100 支援第三代 NVLink，将 GPU 与 GPU 之间的连接频宽翻倍至每秒 600GB，比 PCIe Gen4 的速度快将近 10 倍。当搭配最新一代 NVSwitch 时，伺服器中所有 GPU 都能透过 NVLink 全速相互交流，执行极高速的资料传输。还可以搭配 NVIDIA Mellanox ConnectX-6 Dx SmartNIC 来提供每秒 20 GB 的网路连线频宽。

　　NVIDIA 同时发表配备 A100 的 AI 运算系统「NVIDIA DGX A100」，内含 8 组以 NVLink 互连的 A100，记忆体总频宽每秒 12.4TB、总容量 320GB，最高可提供 5PFLOPS 的处理效能，价格 19 万 9000 美元。

　　此外还发表了配备 1 组 A100 的边缘 AI 运算加速卡「NVIDIA EGX A100」。

NVIDIA EGX A100

上一篇：Epic Games 公开新一代游戏引擎「UE5」搭配 PS5 展现高精细几何与全域光照效果

下一篇：笔电也能当携带主机用，游戏串流NB「GPD WIN Max」云端募资开始