星空xk体育官网GPU性能提升1000倍背后英伟达掀翻行业的另一把「镰刀」

NEWS

新闻中心

行业动态

星空xk体育官网GPU性能提升1000倍背后英伟达掀翻行业的另一把「镰刀」

发布时间: 2024-06-25 次浏览

　　前几日，英伟达市值冲破3万亿美元，将苹果公司甩在身后的故事还没来得及回味。英伟达市值登顶全球*的新闻再次登上各大热搜（发稿前，英伟达市值已出现较大回落）。

　　过去，我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然，经过多年的投入，他们已经建立起了难以逾越的优势。但除此以外，英伟达还有很多隐形护城河，其中，互联技术也是其在AI浪潮中取得成功过程中不可忽视的一大关键。

　　日前，黄仁勋在Computex的主题演讲中，再次透露了未来几年GPU和互连技术的路线图；而另一边，八大芯片巨头抱团取暖，成立UALink推广组意在制定行业标准，以打破市场*英伟达的壁垒和垄断。

　　如今大模型时代来临，随着越来越多的加速器被集成到一起，性能损耗和带宽瓶颈逐渐显现，如何高效传输数据成为了AI芯片互联领域亟待攻克的瓶颈。

　　长期以来，冯·诺依曼架构面临的一个核心挑战是CPU的计算速度与内存访问速度之间的不匹配，尤其是与存储设备的速度相比更是天壤之别。这就是业界著名的“内存墙”，其不均衡的发展速度对日益增长的高性能计算形成了极大制约，成为训练大规模AI模型的瓶颈。

　　与此同时，随着高性能存储技术的进步，计算机组件间通信的带宽再次成为限制性能提升的关键因素。从“Pascal”P100 GPU一代到“Blackwell”B100 GPU一代，八年间GPU的性能提升了1053倍。

　　在此趋势下，GPU作为AI时代的核心处理器，单卡GPU算力和显存有限，无法满足训练需求。为适应算力需求，需要联合大量GPU甚至多台服务器协同工作，分布式训练诉求快速提升。

　　在分布式系统中，大模型训练对算力基础设施的要求从单卡拓展到了集群层面，这对大规模卡间互联的兼容性、传输效率、时延等指标提出了更高的要求。

　　众所周知，总线是数据通信必备管道，是服务器主板上不同硬件互相进行数据通信的管道，对数据传输速度起到决定性作用。

　　目前最普及的总线年提出的PCIe（PCI-Express）协议，PCIe主要用于连接CPU与其他高速设备如GPU、SSD、网卡、显卡等。2003年PCIe1.0版本发布，后续大致每过三年会更新一代，目前已经更新到6.0版本，传输速率高达64GT/s，16通道的带宽达到256GB/s，性能和可扩展性不断提高。

　　NVLink是全球首创的高速GPU互连技术。作为一种总线及其通信协议星空xk体育官网，NVLink采用点对点结构、串列传输，用于连接GPU与支持NVLink技术的CPU，在内存墙无法突破的情况下，*化提升CPU和GPU之间通信的效率，也可用于多个英伟达GPU之间的高带宽互连。使用NVLink连接两张NVIDIA GPU，即可弹性调整记忆体与效能，满足专业视觉运算最高工作负载的需求。

　　2014年，NVLink 1.0发布并在P100 GPU芯片之间实现，两个GPU之间有四个NVLink，每个链路由八个通道组成，每个通道的速度为20Gb/s，系统整体双向带宽为160GB/s，是PCIe3 x16的五倍，这使得数据在CPU内存与GPU显存之间的移动速度得到了大幅提升，从而让GPU加速的应用能够大幅提升运行速度。

　　2017年，英伟达推出了第二代NVLink，两个V100 GPU芯片之间通过六个NVLink 2.0连接，每个链路也是由八个通道组成，每个通道的速度提升至25Gb/s，从而实现300GB/s的双向系统带宽，几乎是NVLink1.0的两倍。

　　NVSwitch是英伟达在2018年发布的一项技术，旨在解决单服务器中多个GPU之间的全连接问题。NVSwitch允许单个服务器节点中多达16个GPU实现全互联，这意味着每个GPU都可以与其他GPU直接通信，无需通过CPU或其他中介。

　　2020年，推出NVLink 3.0技术。它通过12个NVLink连接连接两个GPU A100芯片，每个链路由四个通道组成。每个通道以50Gb/s的速度运行，从而产生600GB/s的双向系统带宽，是NVLink2.0的两倍。随着NVLink数量的增加，NVSwitch上的端口数量也增加到36个，每个端口的运行速度为50GB/s。

　　2022年，NVLink技术升级到第四代，允许两个GPU H100芯片通过18条NVLink链路互连。每个链路由2个通道组成，每个通道支持100Gb/s（PAM4）的速度，从而使双向总带宽增加到900GB/s。NVSwitch也升级到了第三代，每个NVSwitch支持64个端口，每个端口的运行速度为 50GB/s。

　　尽管拥有极高的带宽，NVLink却在每比特数据的传输上比PCIe节能得多。

　　高效率：Infinity Fabric设计用于提供高效率的数据传输，支持多个设备之间的高速通信；

　　模块化：Infinity Fabric支持AMD的Chiplet架构，允许不同功能的芯片模块通过高速互连进行组合；

　　内存共享：Infinity Fabric支持CPU和GPU之间的内存共享，有助于提高异构计算效率；

　　扩展性：Infinity Fabric的设计允许它随着技术进步和需求增长而扩展。

　　不同于英伟达NVLink仅限于内部使用，AMD已经开始向合作伙伴开放其Infinity Fabric生态系统，完善生态布局。

　　UALink提议的*个标准版本UALink 1.0，将连接多达1024个GPU AI加速器，组成一个计算“集群”，共同完成大规模计算任务。

　　据悉，UALi 星空体育下载nk将在第三季度成立一个UALink联盟，定义AI计算舱中加速器和交换机之间扩展通信的高速、低延迟互连，以监督UALink规范未来的发展。UALink 1.0将在同期向加入联盟的公司提供，而具有更高带宽的更新规范UALink 1.1，计划在2024年第四季度推出。这些规范将支持多种传输，包括PCI-Express和以太网。

　　目前RDMA有三种不同的技术实现方式：Infiniband、RoCE、iWARP，后两者是基于以太网的技术。

　　约90%的AI部署都是使用的InfiniBand，而不是以太网。这些部署将英伟达的网络收入推至每年100亿美元。

　　超以太网联盟（UCE），是一个由英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软为星空体育下载打破英伟达垄断而共同创建的组织。UCE认为，通过调整以太网的架构，可以让以下一代高速太网的性能像InfiniBand网络一样好，并更具成本与开放性优势，从而让更多的企业加入进来。

　　虽然InfiniBand在很多情况下表现都不错，但它也有缺点，比如只能在特定范围内使用（例如InfiniBand适合那些运行少量非常大的工作负载（例如GPT3或数字孪生）的用户，但在更加动态的超大规模和云环境中，以太网通星空体育下载常是*），而且成本也不低，将整个网络升级到InfiniBand需要大量投资。相比之下，以太网因为兼容性强，成本适中，以及能够胜任大多数工作负载，所以在网络技术领域里一直很受欢迎，建立了一个庞大的“以太网生态”。

　　AMD也表示将重点支持以太网，特别是超以太网联盟。虽然Infinity Fabric提供了GPU之间的一致互连，但AMD正在推广以太网作为其*的GPU到GPU网络。

　　光互联凭借高带宽、低功耗等优势，几乎成为未来AI互联技术公认的发展方向。

　　尤其是围绕光电共封装和硅光子中继层技术的光互连，正在成为AI领域的热门赛道。

上一篇： 618保健品市场“有xk星空体育人欢喜有人愁” NMN跨境电商网售禁令影响几何？行业动态下一篇： xk星空体育房地产行业动态观察：大宗交易频繁房企加速转型布局

星空体育(官方)APP下载IOS/Android通用版/手机app

星空xk体育官网GPU性能提升1000倍背后英伟达掀翻行业的另一把「镰刀」