揭秘Hopper GPU：非拼装的800mm2庞然大物

发布时间：2022-04-04 22:17:19 所属栏目：手机新闻来源：网络整理

导读：在2022年3月NVIDIA GTC大会上，NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100，是英伟达迄今为止，用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱Grace Hopper的姓氏命名。

副标题[/!--empirenews.page--]

【DIY硬件频道】在2022年3月NVIDIA GTC大会上，NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100，是英伟达迄今为止，用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱Grace Hopper的姓氏命名。

黄仁勋表示：“Hopper H100是有史以来最大的代际飞跃。H100具有800亿个晶体管，在性能上堪称NVIDIA的“新核弹”。这颗“新核弹”的核心架构是什么样的？

首先是规格方面，NVIDIA Hopper架构的H100芯片采用台积电4nm工艺(N4是台积电N5工艺的优化版)，核心面积为814平方毫米，比A100小14平方毫米。虽然核心面积比A100小14平方毫米，但得益于4nm工艺，晶体管密度数量从542亿提升到800亿。

从核心设计图来看，NVIDIA Hopper架构与苹果UltraFusion相似，但它在本质上还是单独的一颗晶片，而不是苹果M1 Ultra那种将两块芯片桥接起来。顶层拓扑与Ampere架构差别不大，整个Hopper架构GPU由8个图形处理集群(Graphics Processing Cluster，GPC)“拼接”组成，但每4个GPC共享25MB得L2缓存。核心两侧则是HBM3显存，拥有5120 Bit的位宽，最高容量可达80GB。

片上的每个GPC由9个纹理处理集群(Texture Processor Cluster，TPC)组成，由PCIe5或接口进入的计算任务，通过带有多实例GPU(Multi-Instance GPU，MIG)控制的GigaThread引擎分配给各个GPC。GPC通过L2缓存共享中间数据，GPC计算的中间数据通过NVLink与其他GPU互通。每个TPC由2个流式多处理器(Streaming Multiprocessor)组成。

Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器。NVIDIA在Hopper中引入了新的线程块集群机制，可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行，对较大的模型具有更好的加速能力。

每个包括128个FP32 CUDA核心、4个第4代张量核心(Tensor Core)。每个单元的指令首先存入L1指令缓存(L1 Instruction Cache)，再分发到L0指令缓存(L1 Instruction Cache)。与L0缓存配套的线程束排序器(Wrap Scheduler，线程束)和调度单元(Dispatch Unit)为CUDA核心和张量核心分配计算任务。通过使用4个特殊函数单元(Special Function Unit，SFU)单元，进行超越函数和插值函数计算。

NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core)，用来加速AI训练和推理。FP8张量核心支持FP32和FP16累加器以及两种FP8 输入类型(E4M3和E5M2)。与FP16或BF16相比，FP8将数据存储要求减半，吞吐量翻倍。在Transformer引擎的分析中，还会看到使用FP8可自适应地提升Transformer的计算速度。

在GPU中，张量核心AI加速的关键模块，也是Ampere及之后GPU架构与早期GPU的重要区别。张量核心是用于矩阵乘法和矩阵累加 (Matrix Multiply-Accumulate，MMA) 数学运算的专用高性能计算核心，可为AI和HPC应用程序提供突破性的性能加速。

Hopper的张量核心支持FP8、FP16、BF16、TF32、FP64和INT8 MMA数据类型。这一代张量核心的关键点是引入Transformer引擎。Transformer算子是主流的BERT到GPT-3等NLP模型的基础，越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。

与上一代A100相比，新的Transformer引擎与Hopper FP8张量核心相结合，在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。为了提升Transformer的计算效率，新Transformer引擎使用混合精度，在计算过程中智能地管理计算精度，在Transformer计算的每一层，根据下一层神经网络层及所需的精度，在FP8和其他浮点格式中进行动态格式转换，充分运用张量核心的算力。

Hopper架构中新增加张量存储加速器 (Tensor Memory Accelerator，TMA) ，以提高张量核心与全局存储和共享存储的数据交换效率。新的TMA使用张量维度和块坐标指定数据传输，而不是简单的按数据地址直接寻址。TMA通过支持不同的张量布局(1D-5D张量)、不同的存储访问模式、显著降低寻址开销并提高了效率。

（编辑：555手机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

谷歌Pixel 7系列手机售	索尼PS5新机将采用6nm
格兰仕预制菜微波炉家	年轻人第一台入门级智