当AI算力竞赛进入“系统级对决”时代,单卡性能的“摩尔定律神话”正被架构革命重构。在美国对华芯片制裁持续加压的背景下,华为昇腾CLoudMatrix 384超节点的横空出世,不仅以300PFlops算力规模反超英伟达旗舰系统NVL72达70%,更揭示出一条破局之路——用“全对等架构”打破传统算力枷锁,以光通信技术跨越“内存墙”与“通信墙”。 黄仁勋的焦虑印证了行业变局:中国AI算力生态正从“单点突围”转向“系统升维”。华为通过计算-存储-网络协同创新,将国产昇腾芯片的集群效能推向极致,其高速互联总线与万卡级扩展能力,直指大模型训练的核心痛点。更深远的意义在于,昇腾CLoudMatrix 384超节点支撑的准万亿盘古Ultra MoE模型训练与DeepSeek推理实践,验证了国产算力全链条自主的可能,而光通信等传统优势技术的跨域复用,凸显中国在系统级创新中的独特路径。 这场“超节点之战”的本质,是算力范式从硬件堆砌到架构重定义的变革。当制裁倒逼出“用数学补物理”、“用非摩尔补摩尔”等颠覆性思维,全球AI竞赛的决胜点,已悄然落在谁能以系统工程弥合单点技术代差,而这恰是中国企业被逼出的生存智慧。 “中国做得太棒了,全球50%的人工智能研究人员都是中国人,你无法阻止他们,也无法阻止他们推进人工智能的发展。如果有人以为,一招就能切断中国发展人工智能的能力,那他绝对是无知的。”黄仁勋近期在台北电脑展上表示。 今年4月,美国政府再度对英伟达中国“特供版”芯片H20发出禁令。公告一出,黄仁勋立刻把皮衣换成西装,飞往中国,这是他3个月里第二次来华。在与政府官员的会面中,黄仁勋多次强调中国市场的重要性,表示希望继续与中国合作。 事实上,如果仅仅是数十亿美元的损失,对英伟达并不算“伤筋动骨”。这家市值超过3万亿美元的巨头,在AI风口下赚得盆满钵满,2025财年收入达到了1305亿美元,同比增长114%;净利润达到729亿美元,同比增长145%;毛利率达到惊人的75%。 真正让黄仁勋感到焦虑的,是中国自主技术正在美国禁令逼迫下快速突围。在英伟达的关键护城河中,不仅有GPU这种硬件,还有并行计算平台和编程模型CUDA,以及高速互联技术NVLink。在单点竞争上,中国企业可能很难撼动英伟达地位,但系统竞争并不一定。 近期,华为对外详细介绍了昇腾CLoudMatrix 384超节点技术,该技术使用国产昇腾芯片,在算力规模、训推效率和可靠性等关键维度上,全面超越了英伟达最强的NVL72系统。其中的核心在于,华为跳出了单卡算力的竞争,通过计算、存储、网络和架构的协同创新,弥补了硬件和芯片工艺的局限性,最大化发挥了芯片和系统能力。 中国建立了替代英伟达的方案,才是黄仁勋最担心的。这不仅可能导致该公司在中国遭受永久性损失,更可能动摇其“算力帝国”的统治根基。他喊话美国政府:赢得开发者的平台才能最终获胜,出口管制应该强化美国平台,而不是迫使全球一半的AI人才流向竞争对手。 看到中国再度突破,美国政客其实也很着急,但他们显然忽视了黄仁勋放宽管制的呼声。在严格限制英伟达对华出口的同时,美商务部最近还试图在全球封杀华为昇腾芯片,同时逼迫EDA巨头对华断供。但就像黄仁勋说的,这样只会激活中国企业绝处逢生的能力。 就在今年4月,美国对华断供H20之际,华为云率先在芜湖商用了CLoudMatrix 384超节点,随后又在贵安和乌兰察布等地商用,内部人士将其称为“核弹级创新”,今年上半年还将有数万卡规模上线,目标是“彻底终结行业算力焦虑”。而近日华为再度重磅宣布,已经成功在昇腾平台上实现了准万亿MoE模型的全流程训练,集群训练系统的性能上实现了业界领先,进一步验证了国产AI基础设施的自主创新能力。 “四年前,英伟达在中国的市场份额高达95%,如今只有50%。如果我们不在中国竞争,而是让中国开发出新的平台,建立一个丰富的生态系统,并且它们不是美国的,在世界推广人工智能技术的时候,他们的技术和领导力将会传播到世界各地。”不难看出,黄仁勋的焦虑感正越来越重,但美国政客仍在一意孤行,行业对老黄说辞也逐步失去了新鲜感。 电影《横空出世》中有这样一个片段,西北核基地总指挥冯石与海外归国的专家陆光达,在戈壁滩上聊天,冯石讲述了多年以前的经历:“在朝鲜战场上,我们抓了一个美军俘虏,一个小小的下士,竟敢在我面前,大声喊叫着,扔个原子弹让我们尝尝,给我们做外科手术。” 在那个年代,苏联在没有任何征兆的情况下突然中断协议,撤走所有提供技术援助的专家,美国则对华实行技术封锁。电影画面显示,在缺乏计算机支持的情况下,我方专家决定采取人海战术,通过昼夜不停地打算盘,最终在一年多的时间里算出答案,助力原子弹研发。 60年过去,美国依然试图通过技术封锁的手段,阻碍中国AI产业发展,这确实给中国带来了算力焦虑,毕竟大模型的Scaling Law(尺度定律)依然有效,越多的参数和数据,就能带来越强的性能和智能,这势必会导致对算力、显存和带宽的需求指数级增长。 但即便芯片制造工艺短期无法赶上,中国也并非束手无策。随着模型规模越来越庞大,单卡算力优势相对弱化,集群化、系统化的算力方案是大势所趋,这对中国是挑战更是机遇。 制裁重压下,华为技术团队提出了“用数学补物理”、“非摩尔定律补摩尔定律”、“用系统补单点”等核心思想:基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。 2022年下半年,“身处暴风雨中”的华为启动超节点研发,项目涉及海思、计算和云等多个业务团队。一位项目组专家回忆道,当时64卡的方案也够用,但华为目标是布局未来,并且准备以昇腾AI云服务的方式向行业提供算力,可以把超节点算力分开或合并,做大了没问题,做小了可能就会很被动。经过内部研讨,华为决定坚定投入384超节点研发。 严格意义上说,超节点(SuperPod)并非一个新概念,谷歌、英伟达等巨头很早就在探索。这项技术兴起的背景是,当Transformer这样的大型神经网络模型横空出世,对算力和显存的需求呈爆炸式增长,单个GPU甚至单个服务器已经难以招架,这时就需要构建大量高速计算芯片的高效统一结构,也就是超节点。相比传统的计算集群,超节点不仅要把大量GPU的算力堆起来,更需要在GPU之间、服务器之间构建超高速互联,来降低并行计算的开销,通过将大量GPU融为一体,提供庞大的有效AI算力,共同承担训练和推理任务。 去年3月,英伟达推出了GB200 NVL72超节点。通过“内部高速专线”NVLink,英伟达将36个Grace CPU和72个Blackwell GPU紧密集成,形成一个逻辑上的“巨型GPU”,总算力规模达到了180Pflops,网络互联总带宽达到130TB/s,内存总带宽达到576TB/s。按照英伟达的说法,GB200 NVL72超节点,可以将万亿参数大模型推理速度提高30倍。 在国内也有不少企业在探索超节点技术,像百度昆仑芯构建的超节点,通过自研互联通信协议XPU Link,单柜可容纳32/64张昆仑芯AI加速卡,单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器。此外,阿里、腾讯、中国移动等巨头,也联合了多家软硬件企业,发起了不同的超节点互联开放标准。 但目前来看,使用全国产芯片构建超节点,还能全面超越英伟达NVL72的,只有华为。昇腾CLoudMatrix 384超节点在高速互联总线联接下,共由12个计算柜和4个总线柜构成,是目前业界最大规模的超节点,算力总规模达300Pflops,是英伟达NVL72的1.7倍;网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%。 更重要的是,通过最佳负载均衡组网等方案,昇腾超节点还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,未来可以支撑更大规模的模型演进。 昇腾CLoudMatrix 384超节点,是华为在制裁重压下造出的一颗“算力核弹”。但对比英伟达和昇腾的方案也难免产生一些疑问。华为只是靠堆更多卡超越英伟达的吗?为什么英伟达和其他企业没有堆更多卡?相比英伟达把卡都放在一个柜子里(更传统意义的超节点,Scale up),昇腾为什么能分成多个计算柜(Scale out)?构建这样的巨型算力系统,能解决哪些问题? 面对大模型Scaling Law带来的巨量算力需求,传统解决方案是尽可能堆卡,构建更大的算力集群,但问题是,无限制的堆卡并不能带来算力的线性提升,反而会带来“内存墙”、“规模墙”和“通信墙”的问题。在计算集群内部,如果GPU之间和服务器之间不能“有效沟通”,GPU就会因为没有足够数据用于计算而闲着,进而会导致1+1<2的结果。 过去8年间,单卡硬件算力增长了40倍,但节点内总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。因此如果不能提升通信效率,单纯把384张昇腾卡堆起来,计算效果并不一定比72张英伟达卡更好,因为卡间和服务器间的通信开销会抵消算力增加的收益,导致有效算力不升反降。 尤其是,随着以DeepSeek为代表的MoE(混合专家模型)成为主流模型结构,其复杂的混合并行策略带来巨大挑战,通信需求骤增,TP(张量并行)、SP(序列并行)、EP(专家并行)单次通信量高达GB级且难以掩盖。实践数据表明,当TP、SP或EP等分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。 在这种行业趋势下,英伟达的NVLink体现出更大价值,它的意义在于在GPU之间搭建了一个“超宽车道”,可以让GPU绕开CPU直接通信。基于此,英伟达把将多颗GPU、CPU、高速内存、NVLink/NVSwitch等高度集成,构建起NVL72超节点。但问题是,英伟达的NVLink只是自家GPU之间的通信协议,而节点内还包括NPU、FPGA等非GPU异构硬件,它们不能通过NVLink这种专线进行通信,还是需要通过效率较低的PCIe协议走GPU中转,而节点之间的以太网/InfiniBand跨机互联,在海量计算中也存在带宽堵点。 相比于英伟达这种修补式的改进,昇腾CLoudMatrix 384超节点选择对传统计算架构进行重构。它的核心在于彻底打破了传统以CPU为中心的冯诺依曼架构,也就是“主从架构”,创新提出了“全对等架构”,凭借高速互联总线的关键突破,把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,这样做就能去除掉繁多的中转环节,从而实现真正的点对点互联,进而实现更大的算力密度和互联带宽。 “过去数据中心都是通过CPU调度,昇腾CLoudMatrix 384超节点最核心的理念就是对等架构、点对点通信,不用绕过第三方通信。”华为的专家告诉观察者网,在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,利用“AI专属高架桥”,集群可以像一台计算机一样工作,突破性能限制。 昇腾CLoudMatrix 384超节点之所以能大幅提升通信效率,还有一个关键原因,就是应用了光通信技术,在昇腾CLoudMatrix 384超节点中,共使用了3168根光纤和6912个400G光模块。相比之下,英伟达NVL72超节点采用的是全铜线架构,成本、功耗低,一经部署便保持固定状态、相对稳定,但缺点是只能部署2米以内,否则通信速率会大幅衰减,因此可联接芯片数量有限。而光模块则有高带宽和高速率的优势,损耗低,适合长距离传输,因而可连接更多芯片,部署灵活。 但光通信也不是全是优势,光模块成本比铜线成倍提升,功耗也大幅增加,并且光纤比较脆弱,故障率较高,插口没插紧、光纤弯了、插头有灰,随便一个小问题都可能断联。因此英伟达虽然在2022年考虑过使用光模块连接256块H100,但最后评估了成本和稳定性,决定不投入生产,说白了还是光通信技术太难驾驭。 但对华为这种通信巨头来说,“光模块都玩烂了”,长期积累的光通信技术已经实现国际领先,反而在超节点通信中构成独特优势。并且针对超节点集群容易发生故障的特征,华为云还给超节点配备了一个全科专业医生——昇腾云脑,主要包含“1-3-10”标准:第一步,1分钟内能感知故障,立刻发现问题不对劲;第二步,3分钟内精准定位问题,找到病根;第三步,10分钟内恢复,快速修复或者让系统继续运行。 海外知名分析机构SemiAnalysis在一篇报告中指出,华为芯片落后一代,但其扩展解决方案比英伟达和AMD目前在售产品领先一代。基于昇腾芯片打造的华为云CloudMatrix 384超节点,可与英伟达的GB200 NVL72直接竞争,并且在某些指标上比英伟达的机架级解决方案更为先进,其工程优势体现在系统层面,涵盖了网络、光通信和软件。 就连黄仁勋也公开承认被华为超越:“从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达,比英伟达的尖端技术更具优势,因此我们必须高度重视这家实力雄厚的公司,全力以赴应对挑战。华为已明确表态要融合5G与AI技术,这种布局极具前瞻性,是完全正确的战略方向。我们也在推进同样的计划,但必须加快步伐。” 被最强对手认可背后,或许只有华为才了解突围的艰辛。有华为云内部人士透露,早期光模块根本不可用,想用“非摩尔去解决摩尔定律”,结果非摩尔的问题反而更大,“我们只能将每个光模块的端面全部拍照,再逐个分析,解决了数不清的问题,才实现较好的稳定性。” 想必大家都还记得年初DeepSeek的爆火。当时华为云和硅基流动联手,在CloudMatrix 384超节点上部署了DeepSeekR1/V3,获得了媲美英伟达H100的效果,甚至能提供生产级的推理服务。这其中的原因就在于,首先DeepSeek是一个MoE模型,相比传统的稠密模型,它只会调用最适合当前任务的少部分专家节点参与工作,节省算力的同时,提高推理速度。与此同时,昇腾CLoudMatrix 384超节点这种“去主从、全对等”的算力架构,又天然亲和MoE模型,相比传统一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家的分布式推理,单卡的MoE计算和通信效率都大幅提升。 “两三年前我们在设计超节点的时候,大家都觉得太大了,因为负载是技术、模型迭代和硬件创新不断交替。在当时,昇腾CLoudMatrix 384超节点的规模还是比较大的,即便是现在,DeepSeek的256个专家,也可以在上面实现一卡一专家,同时还能部署更多冗余专家,即便是最火爆的模型,我们支持都是绰绰有余。”华为专家对观察者网说道。 构建巨型的算力系统,华为的目标远不止推理。之前中国世界领先的大模型,如DeepSeek、Qwen,多由英伟达平台训练出来,而近日华为重磅发布的参数规模高达7180亿的全新模型——盘古Ultra MoE,是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。在训练方法上,华为首次披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。 从“以小打大”的盘古72B(Pangu Pro),到业界一流的准万亿模型718B(Pangu Ultra MoE),再到频繁刷新推理速度记录,华为成功完成了国产算力+国产模型的全流程自主可控的训练实践,有力回应了外界对国产算力“只能推理、难以训练顶尖大模型”的疑虑。 当然,超节点本质还是在堆卡,这种“大力出奇迹”的模式不可避免带来功耗、冷却等难题,传统服务器机柜功耗通常在几千瓦,AI超节点机柜功耗可达100千瓦甚至更高。昇腾CLoudMatrix 384超节点在超越英伟达NVL72的同时,功耗也达到后者的4.1倍,每FLOP功耗高出2.5倍。 但需要指出的是,功耗在中国虽是不可忽视的问题,但并不构成制约因素。SemiAnalysis在报告中指出,西方普遍认为人工智能受限于电力,但在中国情况恰恰相反。除了火电,中国还拥有全球最大的太阳能、水电和风电装机容量,目前在核电部署方面也处于领先地位。如果由于相对充足的电力而不存在功耗限制,那么放弃功耗指标并增加扩展性是合理的。 华为也并非完全不考虑功耗。华为技术专家告诉观察者网,华为在液冷方面有很多独特技术,包括三明治架构等工程创新,风冷也有很多工程和技术创新,来保障功耗的控制和降低。同时不管是超节点还是算力集群,并非时刻满负载在跑,华为也在做一些动态调频和降温。 在云计算中心,华为云还打造了恒温“训练基地”,采用液冷冷板散热技术,让冷媒直接接触发热部件,散热效率比传统风冷提升了50%。再加上iCooling智能温控系统,每五分钟动态调整策略,无论外部温度怎么变化,都能让数据中心保持最佳状态。最终,数据中心的能效比PUE做到1.12,比行业平均节能70%。 事实上,在技术封锁下,能用可接受的代价,最大程度解决现实问题,无疑就是胜利,这也是华为以空间换算力、以带宽换算力、以能源换算力的思路所在。当单点技术被封锁时,全栈协同与规模优势将成为破局关键。在日益复杂的国际环境下,华为昇腾CLoudMatrix 384超节点的诞生,不仅为国内提供了除英伟达之外的第二选择,也为中国AI产业发展吃下一颗“定心丸”。 本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
成色18k.8.35mb菠萝该记者在播客节目中表示:“我不觉得自己这是在爆什么大料,但在巴特勒那场风波正热的时候,有多个联盟消息人士对我说:‘嘿,你可能得留意一下莫兰特和迈阿密的动向。’当时我没太理解其中的可能性,这笔交易会很复杂,第一,因为吉米的续约问题;第二,是莫兰特的大合同。”近年来,随着跨境电商的兴起,个别企业、个人以不实信息招揽国内人员去泰工作,有关人员因非法务工,受到泰国执法部门处罚。成色18k.8.35mb菠萝xjxjxj55.gov.cn更有人翻出早年采访,李连杰曾称前女儿是“年轻时的愣头青错误”,如今却在镜头前强调“父爱不分彼此”,这种前后矛盾的态度,让“弥补”显得格外功利首轮比赛面对32岁的美国选手戴维斯,张帅取得了完胜,用了不到一个小时便是2-0晋级,其中一发进球率84%、一发得分率83%、二发得分率86%。
20251207 🔞 成色18k.8.35mb菠萝该条款的内容是:从今夏某个特定日期起,拜仁可以以3500万欧元的固定价格将他签下。然而让情况变得复杂的是:蒂尔曼阵营以及勒沃库森方面也认为他们有权激活这一条款,而埃因霍温对看法表示反对。77788.gov.cn对于续约,佩里西奇本人感到非常高兴:“这对我来说是美好的一天——对我、我的家人和其他亲人来说都是如此。我们全家在上赛季在这里过得非常愉快。”
📸 杨小林记者 唐文良 摄
20251207 🍓 成色18k.8.35mb菠萝“这些人懂球、爱球,并用一种积极的态度来谈论篮球。我认为亚马逊会员视频会在展现我们这项运动方面做得非常出色。他们的嘉宾阵容有着极高的智慧、精彩的评论和深刻的洞察力——我真的很期待看到他们的表现,他们一定会做出一番成就。”詹姆斯说道。51cao.gov.cn当地时间6月26日,葡超球队维泽拉官方发布公告,宣布签下马竞门将戈米斯,双方签约至2027年,协议中包含选择续约一年的条款。
📸 闫泊兆记者 孙永跃 摄
🔞 加州大学伯克利分校也不遑多让,甚至还多出一个评判维度:belonging, DEI升级成DEIB。举例来说,如果一位教师在评职称的时候,仅仅参加过一到两项DEIB活动,那么,这位老师只能得到五分中的一分或是两分,要拿全这五分,老师must demonstrate a history of commitment to DEIB activities, such as having “organized or spoken at workshops or other events aimed at increasing others understanding of diversity, equity, inclusion and belonging…Candidates must also integrate DEIB into their scholarship and clearly formulate new ideas for advancing equity and inclusion at Berkeley and within their field, through their research, teaching and/or service”。你不仅要宣扬DEIB,还要付诸行动。更绝的是,如果你拒绝按照这样的政治指挥棒从事学术活动,那么你必须provide reasons for not considering diversity in hiring,也就是老师要自证为什么不能向DEIB的标准看齐。看来,学术中没有政治,在哪儿都是梦。17cao.gov.cn






