2025年以来,节点(SuperPod)作为新的AI力基础设施,不断成为行业焦点。观察者网也曾度报道过华为的昇腾384节点,它通过速互联总线将384颗昇腾芯片连接起来,在节点力规模、网络互联带宽、内存总带宽等多个指标上,赶了国外厂商的旗舰系统。
但当时些讨论认为,华为是靠堆砌了384颗芯片,才越了英伟达72颗芯片,而后很多厂商也跟进了节点的概念。时间,力行业掀起了建设节点的热潮。那回到初的问题,节点就是单纯的堆芯片吗?华为是通过堆砌芯片赶英伟达的吗?节点和传统的计集群区别在哪?
关于这些行业热点话题,华为计产品线营销运作部部长张军近日在场媒体沙龙上对观察者网等媒体做了详解。他先认为,今天的力需求远未被满足,论是大模型进入到生产系统中,还是在toC消费端,token消耗的数量都在指数增长,未来每日token消耗量可能突破千万亿。
在些观点看来,力缺口大可以通过大量建设服务器集群堆卡来解决。这么说听起来有定道理,但真实情况远没有这么简单。根据Meta公布的论文,万卡集群训练时力利用率仅约38,粗暴堆卡可能会造成62的力浪费,并且模型训练会3个小时中断次。
这是因为梅州橡塑胶,集群网络通信已成为当前大模型训练和理的大挑战。以DeepSeek这种混模型(MoE)为例,每个“”如果不能有沟通,NPU就会由于没有足够数据计而闲置,进而形成1+1<2的结果。换句话说,如果384颗昇腾芯片简单叠加,计果就会和普通服务器集群样率低下。
节点就在这种情况下应运而生,它不是修补式改进,而是对传统计架构进行重构。张军对观察者网表示,节点从传统以CPU为中心的架构,变成了全平等互联,论是CPU、NPU还是内存单元,都不用再经过CPU,而是可以平等互联,提通信率,同时连接计单元的“速公路”也发生了变化,由全新的协议和总线能力来支撑设备间互联。
现在市面上的节点越来越多,但并没有统标准,而张军认为,真正的节点须具备三个关键特点:是带宽够大,核心要让计不用等待通信;二是有足够低的时延,传统集群很难做到时延降低;三是形成有的、逻辑上的单系统,关键在于内存能不能统编址。利用这些技术,节点可以让DeepSeek的256个“”分布到每个计单元上,提升吞吐率。
“为什么要有统内存编址的技术才能真正称得上节点?”他进步对观察者网解释称,传统集群的信息传递,跟现实生活中寄快递的式比较像,需要做相应的转换才能找到下单地址。而节点希望像在图书馆里检索书籍样,提前进行书籍编址,能快速找到,而且可以变成资源池。如果没有统内存编址,就不能做到内存的池化。如果没有内存池化,计单元之间的数据快速交换很难做到。如果不能快速交换数据,计率是很难提升的。这是为什么说做不到统内存编址,节点是很难真正地运行起来的原因之。”
句话总结,节点相比传统集群大的优势,是计率的显著提升。以芯片制程为例,在摩尔定律放缓的情况下,7纳米到3纳米,可能每代能提升不过20。而节点可以将模型力利用率从30提升到45,相当于提升了50,通过资源的调度梅州橡塑胶,在定程度上可以弥补芯片工艺代差。
但造个真正的节点远没有那么容易。关注技术细节的人可能会发现,华为的昇腾384节点是由12个计柜和4个总线柜构成,体积庞大,而英伟达NVL72系统只有个机柜,为什么英伟达不连接多机柜,进而连接多芯片?
核心在于节点架构不同,泡沫板橡塑板专用胶英伟达采用的全铜线架构,传递的是电信号,而华为将光通信技术应用于节点,采用速光模块连接。“如果用电的式,速信号基本只能在个机柜里两到五米传送,这也是为什么很多业界的节点只能在个机柜里面提供。为什么华为可以跳出单个机柜限制,规模商用384个芯片互联,未来可以支持8192个芯片互联,核心是我们用了光的技术。”张军对观察者网表示。
但“光”并不好驾驭。光模块成本,也比较娇惯,如果有灰尘,有各种各样的温度变化,容易发生闪断、系统不稳定,要做的像电样可靠,像光样长度,难度很大。
奥力斯 泡沫板橡塑板专用胶报价 联系人:王经理 手机:18232851235(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
“我们是怎么做到的?句话,系统化创新,华为可以做自己的芯片,有自己光的器件能力,有自己的底层协议,在过去光通信上构建了工程能力,我们做到了借助全光互联提供节点。为什么其它厂商做不到?就是因为他们或许掌握了某些单点技术,但很难像华为样有系统化能力,这也得益于过去华为直在通信域厚的积累。过去20年,我们在光上面是全球的技术积累。”张军对观察者网说道。
华为不仅在做智节点,也在发展通节点。去年的华为全联接大会上,华为轮值董事长徐直军发布了基于鲲鹏950处理器的TaiShan950节点,这是全球个通用计节点,将在2026年季度上市。他当时表示,TaiShan950加上分布式GaussDB数据库,将取代各种应用场景的大型机和小型机,以及Oracle的Exadata数据库服务器。
“大过去买服务器,主要关注CPU的主频和核数。但今天大量的场景通过调整主频和核数是难以解决的,核心原因是因为摩尔定律已经走到头了,物理的能很难,堆再多的核、提升再的主频,很难把计能提升上去。有条新路,通过通信的能力把多核能够连接起来,形成有的业务系统,同样给通用计提供相应的能力。核心和智是样的,提供大带宽、低时延、进行统内存编址。”张军说道。
在华为的思考中,论是智还是通节点,乃至像Atlas950SuperCluster这样数十万卡的巨型节点集群,核心是要让大量服务器像台计机样工作,由此华为构建了新型互联协议灵衢UB(UnifiedBus),并将灵衢2.0规范开放。
“灵衢是构建节点的核心能力,华为把它开放出来,让业界所有的人都可以获取到这个技术。基础协议有600页,是所有厂商中提供的详细、完整的能力。通过对灵衢2.0协议的开放,产业界伙伴能够借助这个技术造自己的节点。我们希望与产业界共创,能够形成个繁荣的产业生态,希望这些新的能力、新的技术不仅仅华为在使用,而是整个产业链起来构建。”张军表示。
节点足够火热,但支撑其运行的不只有芯片、光模块等硬件,还有大量软件生态,比如异构计架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等等。
生态需要产业共建,华为直坚持软件开源开放。张军表示,“目前鲲鹏注册开发者有380万,昇腾有将近400万开发者。2025年8月,我们把CANN开源开放,openEuler也是业界个面向节点的开源操作系统。特别是CANN,我们从底层的运营时,到开发语言、模版库子库等,完整地开源给产业界,现在已经有很多开发者基于昇腾CANN的能力,自己开发子,来面向它的业务场景进行创新。AI时代的迭代速度远以往,单斗很难跟上节奏梅州橡塑胶,协同共创、开放共生才能共赢未来。”
相关词条:管道保温 塑料管材生产线 锚索 玻璃棉毡 PVC管道管件粘结胶