美国政府一直在限制对中国出售先进AI芯片。今年4月,美国商务部已限制英伟达对华出售特供中国市场的H20芯片。而H20事实上已经是英伟达芯片的性能阉割版。
中国大陆买家理论上已无法通过正常渠道获取英伟达的先进AI芯片。自主可控才能把命运掌握在自己手里。
昇腾910系列是中国企业使用最多的国产AI芯片,包括字节跳动、阿里、腾讯、百度、蚂蚁金服等大型科技企业都在使用昇腾910。
不过,过去三年,中国大部分科技大厂把昇腾910更多用在推理环节,而不是用作模型训练。
模型训练是个复杂的系统工程。一个基础大模型,通常在数万枚先进AI芯片(如英伟达GB200/H200/H100)组成的算力集群上,进行数周甚至数月的不间断训练。在万卡集群中,芯片、网络、软件随时可能故障。集群规模越大,故障概率就越高。一旦故障,训练任务就会中断,不仅浪费时间,还浪费算力。
今年1月,某科技公司的一位战略规划人士透露,当时他们发现,昇腾910系列芯片单卡性能不够强,且存在软件生态不完善等问题。但英伟达的A800/H800/H20等芯片不断被限制出售后,用国产AI芯片训练大模型已被很多中国科技公司提上了议事日程。
此时,华为也取得了重要技术进展——用昇腾910训练出了1350亿参数的盘古Ultra和7180亿参数的盘古Ultra MoE。华为还用系统工程手段突破了昇腾910单卡性能相对不足的短板。
今年4月-5月,华为在预印本论文平台arXiv先后公布了两篇技术论文,分别介绍了如何使用昇腾910训练1350亿参数盘古Ultra Dense(可译为,稠密)模型、7180亿参数的盘古Ultra MoE(mixture of experts,可译为,稀疏或混合专家)模型。
今年4月,华为发布了CloudMatrix 384“超节点”(“超节点”指把数十枚、数百枚AI芯片互联)方案。它采取系统工程的策略,把384张昇腾910互联在一起。这个方案克服了单卡性能不足的问题,让整个系统性能更优。
华为为此投入的研发团队超过1万人。包括华为云、计算产品线、海思、2012实验室、数通产品线、光产品线等团队都参与了“算力会战”。华为通过跨部门作战的方式,把几十年积累的各种能力用于解决散热、供电、高速互联网、大芯片在板可靠性等工程问题。

(昇腾910 AI处理器 图源/视觉中国)
如何低成本、高效率训练出两款大模型
昇腾芯片如何突破大模型训练这道难关?华为的两篇技术论文对此有非常详尽的解释。
其中名为《盘古Ultra:在昇腾NPU上突破高密度大语言模型的极限》的论文详细分析了,如何用8192枚昇腾910系列芯片训练1350亿参数盘古Ultra这一Dense模型。
训练盘古Ultra的难点之一是,盘古Ultra有94个网络层。这种深层稠密模型普遍训练不稳定,容易出现“损失尖峰”。这会对模型造成“不可逆的性能损害”。为此,华为技术团队通过“深度缩放三明治归一化”等算法,解决了训练稳定性问题。论文显示,盘古Ultra模型性能在基准测试中和GPT-4o-0513、Llama 405B等行业领先的Dense模型不相上下。
华为另一篇主题为《盘古Ultra MoE:如何在昇腾NPU上训练你的大模型》的论文讲述了,如何用6000多枚昇腾910系列芯片训练7180 亿参数的盘古Ultra MoE这款稀疏模型。
训练盘古Ultra MoE,要解决稀疏结构下,高效利用算力资源并减少通信开销的问题。为此,华为技术团队采用了模拟仿真的方式为昇腾910“量身定做”了模型参数和模型结构。盘古Ultra MoE使用了256个专家模型平衡性能、效率。专家调度、通信开销和负载均衡等系统问题最终也被攻克,这取得了不错的效果。在基准测试中,盘古Ultra MoE与行业领先的稀疏模型DeepSeek-R1性能相当。
(华为两篇技术论文,分别讲述了如何在昇腾910系列芯片的集群上训练Dense模型和MoE模型 图源/华为在arXiv上公布的预印本论文)
一位华为技术专家介绍,盘古Ultra和盘古Ultra MoE实现了长期稳定的训练。在盘古大模型训练过程中,华为技术团队积累了故障快速恢复的技术。过去算力集群出现故障后,需要数小时才能恢复,现在可实现分钟级恢复。
对企业客户来说,昇腾910能做到稳定训练大模型还不算完全具备竞争力。它必须低成本、高效率才有实际意义——这需要关注MFU(模型算力利用率Model FLOPs Utilization)这个重要指标。
在大模型训练中,MFU是评估算力集群效率的重要指标。MFU越高,意味着芯片利用率越高、训练时间越短、训练总成本越低。
在训练盘古Ultra这款稠密模型时,8192枚昇腾910组成的算力集群,MFU超过50%。《财经》了解到,训练Dense模型的行业基准MFU通常是40%-50%,超过50%属于行业前列。
华为披露的最新数据显示,在训练盘古Ultra MoE这款稀疏模型时,6000多枚昇腾910芯片组成的算力集群,MFU达到41%。这远远高于行业平均水平。《财经》了解到,稀疏模型比稠密模型,参数更大调度更复杂,因此MFU相对更低。训练稀疏模型时,行业基准MFU通常是30%左右。
一位华为技术专家对《财经》表示,目前实验室内,盘古Ultra MoE的MFU达到了45%。盘古Ultra MoE的预训练尚未使用CloudMatrix 384。未来如果使用CloudMatrix 384训练大模型,MFU还将进一步提升。目前,有很多大型科技公司的客户对CloudMatrix 384感兴趣。
一位科技公司基础设施负责人2024年11月曾向《财经》介绍,在模型训练中的有效AI算力=单卡算力有效率×并行计算有效率×有效训练时间。极端情况下,模型训练过程中会浪费一半的算力资源。如何避免浪费是一个重要课题,算力效率越高,训练成本就越低。
昇腾910的集群目前可以实现稳定训练,且能相对低成本、高效率地训练大模型。那么,华为为何此时公布这些技术进展?
一位华为资深技术专家直言,以前大家选昇腾,并不是认为昇腾先进,只是因为美国断供而被迫使用。但华为志不在此,更希望让行业了解昇腾的真实能力,也希望通过自身实力赢得客户。
目前,华为针对互联网行业和关键信息基础设施行业的客户,会派出中高级专家组成的“小巧灵突击队”,到一线现场支持客户用好昇腾。
硬件性能的代际差距,靠系统工程去弥平
2025年,AI产业的竞争正在变得更激烈。
据《财经》不完全统计,截至2025年6月11日,中国和美国参与模型竞争的10家科技公司(包括华为、字节跳动、阿里、腾讯、百度、、谷歌、OpenAI、Anthropic、xAI),在2025年刚刚过去的162天内发布或迭代了至少23版大模型,平均每7天就会有一版新的大模型诞生。
英伟达的AI芯片,几乎每年都在迭代。英伟达2023年主力产品是A100,采用7纳米工艺制程;2024年主力产品是H100/H200,采用4纳米工艺制程;2025年主力产品是GB200,它由两枚B200串联成一块芯片,采用3纳米工艺制程。美国科技公司2025年初推出的大模型大多是在H100/H200集群上训练的,后续将在GB200集群上训练。
这意味着,后续训练大模型,需要更强、更多的芯片。昇腾910系列不可能原地踏步,它必须持续迭代,才能训练出更好的模型。
如果仅对比单卡性能,客观说,昇腾910目前和英伟达GB200等旗舰芯片存在较大差距。但是,华为正在采取系统工程手段突破算力集群的峰值性能,挖掘昇腾910系列芯片的潜力。
华为的策略是,避开单颗芯片的直接对抗,转而在系统架构层面,用超大规模集群的方式,实现系统总性能的赶超。
今年4月,华为发布的CloudMatrix 384,就是把384枚昇腾910芯片集成在16个机柜,再通过光缆构建高带宽、低时延的互连网络组成一个单位集群。好处是,这可以降低芯片并行计算的通信损耗,最终提升整体算力效率。CloudMatrix 384单位集群拓展到万卡时,它的性能损耗比传统的8卡、16卡服务器集群更小。
国际半导体和AI研究机构SemiAnalysis分析称,昇腾910单卡性能约为780 TFLOPS(每秒1万亿次浮点运算),英伟达GB200单卡性能约为2500 TFLOPS。昇腾单卡性能仅为英伟达的GB200的三分之一。但华为CloudMatrix 384集群性能是300 PFLOPS(每秒1000万亿次的浮点运算,PFLOPS是TFLOPS的1000倍),GB200 NVL72的集群性能是180 PFLOPS。华为CloudMatrix 384集群性能是英伟达GB200 NVL72的1.6倍。
一位华为云人士今年4月曾对《财经》表示,英伟达GB200 NVL72使用铜缆做连接,但华为CloudMatrix 384使用光缆做连接。光缆的缺陷是,安装、维护难度更高。但华为做通信多年,能做到低故障率。这带来的收益是,可以做到低时延、高带宽,压榨出更高的峰值性能。
这种大集群模式还突破了中国HBM(High Bandwidth Memory,高带宽内存)芯片性能更低的问题。去年12月,美国政府限制对中国出售高性能HBM芯片——这是先进AI芯片必不可少的零部件。中国后续无法获得更高性能的HBM芯片。HBM性能低,会让模型训练变得拥塞,训练时间变得更长。
但国际半导体和AI研究机构SemiAnalysis分析认为,CloudMatrix 384的芯片数量更多,集成的HBM个数也更多,因此拥有内存和带宽也更大。
因此,英伟达创始人黄仁勋今年5月28日接受媒体采访时直言:“有很多基础事实表明,华为的技术可能与H200相当。”黄仁勋认为,向市场提供CloudMatrix 384系统证明华为的行动非常快,“这可以扩展到比我们最新一代Grace Blackwell(NVL72)更大的系统。华为不会坐以待毙,他们想方设法寻找竞争的路径。”
种种现实条件制约不少的限制下,华为的策略相对激进,核心是解决系统工程问题。
为解决网络问题,华为技术团队根据计算系统的需求重新定义了互联总线。为实现算力高效调度,就要用操作系统实现资源池化。为了让系统平稳工作,还需要有大动态的供电。384枚芯片在一起发热量巨大,则要使用散热效率更高的液冷技术。
一位华为资深技术人士介绍,训练大模型需要大系统。华为技术团队在计算、内存、通信、存储、散热、供电以及软件等方面投入大量精力进行优化,最终实现系统性能更优。华为几十年在ICT领域,尤其是硬件工程、基础软件积累很深,因此有能力把复杂系统做好。
上述华为资深技术人士解释,华为基于中国的现实情况,解决中国的现实问题。华为不简单追求单点技术的路线,而是以面积换能力、以堆叠增容量、以集群扩规模,通过超节点的系统工程创新,实现规模算力的领先和效能的最优。
软件生态迎来转折点
想要训练出更好的模型,芯片要迭代,软件生态也要不断完善——这样才能提升国产AI芯片的易用性。
软件生态一直被视为是昇腾910系列芯片的重要短板。这在2023年之前尤为明显,但在2024年-2025年,昇腾的软件生态已经有所好转。
所谓的软件生态,主要包括两大部分——芯片的开发工具栈(华为CANN、英伟达CUDA)、模型的深度学习框架(华为MindSpore、开源PyTorch/谷歌TensorFlow)。
华为的CANN、MindSpore起步相对更晚,它短时间内很难改变开发者长期形成的习惯。但积极信号是,一些弯道追赶的技术机会正在出现。
过去,AI模型的架构比较分散,技术路径不统一,各类算子有几万个,加上衍生的算子有十万以上。这对英伟达这种CUDA生态做了十几年的厂商来说并不难。开发者设计算子后,会第一时间适配英伟达的芯片。但对华为等后发芯片厂商来说,想让自家芯片支持所有主流模型,就必须开发、优化数万个算子。正常情况下,这几乎是不可能完成的任务。
2023年之后,各种各样的模型逐渐收敛到Transformer、Diffusion架构。以目前主流的GPT系列、Qwen系列、Llama系列、Deepseek-V3等模型为例,它们使用的核心算子大约只有几百个,这让后发芯片厂商有了缩小生态差距的机会。
一位资深算法工程师对《财经》解释,算子融合、淘汰性能不足的算子后,需要开发的算子数量的确在大幅减少。如今只需要专注开发有限的算子,适配工作量大大减轻。因此,生态差距有希望缩小。
一位华为资深技术人士介绍,华为已经开发补齐了高质量、高性能的基础算子,并把这些算子深度开放给客户。国内头部客户很快就适配了他们自己的模型和应用。
其次,AI代码生成技术正在普及。这也让后发芯片厂商有机会缩小软件生态的差距。
一种乐观设想是,如果AI代码生成工具能针对国产AI芯片自动优化算子,适配门槛将大幅降低。上述资深算法工程师解释,如果国产AI厂商能提供详尽的芯片架构文档和丰富的代码案例,为代码生成工具提供充足的背景信息,开发者未来或许可以借助AI让算子在不同芯片之间迁移,大幅减少开发工作量。届时,CUDA的软件生态壁垒可能会进一步削弱。
这是一个可能的方向,但还有很长的路要走。
一位华为技术人士的看法是,“CANN+MindSpore”目前和“CUDA+PyTorch/TensorFlow”相比,的确历史积淀不足。但昇腾是开放的,CANN支持客户通过PyTorch/TensorFlow等主流框架使用昇腾。华为的MindSpore也在不断提升易用性,贴近开发者习惯。在他看来,国产AI芯片想提升竞争力,必须形成生态规模。为此,应该扶持主流的国产技术路线。
华为目前在采取务实的策略。一方面,持续打磨自家的MindSpore框架;另一方面,让 CANN兼容PyTorch/TensorFlow等主流框架,吸引开发者将大模型无缝迁移到昇腾硬件上,同时完善自己的软件生态。目前,昇腾支持开发者将在其他芯片上训练的大模型一键部署到昇腾上。
通过“非对称”竞争,赢得战略窗口
昇腾持续进步的同时,美国政府的芯片出口管制始终是中国AI产业头上的“达摩克利斯之剑”。这些威胁还在步步紧逼。
中美AI产业的战略博弈中,有一条主线——美国政府一直希望限制中国获取先进AI芯片,锁死中国的AI技术上限。具体管制手段包括不限于:
其一,禁止中国大陆采购最先进的AI芯片。美国商务部工业安全局限定了英伟达对中国市场出售AI芯片的性能上限,今年4月又限制英伟达对华出售“特供”的H20芯片。
其二,禁止荷兰ASML公司对华出售EUV(极紫外光刻)光刻机。中国半导体制造工艺暂时被限制在7纳米及以上水平,中国目前很难获得台积电16纳米以下数据中心AI芯片的代工。其核心目的是,让中国国产的AI芯片始终和美国存在工艺制程的代际差。
然而,让国产AI芯片从能用变得好用,已经是中国产业界的共识。一位芯片技术人士今年4月末曾对《财经》表示,从拜登政府到特朗普政府,美国每一轮出口管制都在倒逼中国提升AI芯片的自研意志和自研能力。
如何让国产AI芯片从能用变得好用?系统工程和工艺制程,是两个重要方向。哪怕是英伟达,也是在两条腿走路。
对中国的有利之处是,近两年,半导体工艺提升带来的边际效应在衰减。随着晶体管尺寸逼近物理极限,提升工艺的难度、成本急剧增加,功耗、散热的挑战也在急剧提升。
以英伟达B200为例,它采用3纳米工艺,相比4纳米的H100,单颗GPU性能提升30%,功耗增加超过70%。英伟达的这一代产品在系统工程方向进行了大幅改进——英伟达的GB200 NVL72,就是把72枚GB200集成在一个机柜,做成一个超节点。从英伟达的产品演进来看,系统工程带来的性能提升,比改进芯片工艺制程更简单直接。
一位华为技术专家的看法是,短期内系统工程带来的提升的确更有效,这也是当前形势下华为优先努力的方向。
上述华为技术专家认为,从单芯片提升路径来看,从7纳米到5纳米、3纳米、2纳米,每代芯片工艺带来的性能提升有限,而且成本极高。系统工程优化,带来的算力效率提升,约等于两代到三代的芯片工艺演进。这一定程度弥补了芯片工艺不足。
AI芯片的半导体工艺正朝着2纳米方向前进,大模型训练也正在朝着十万卡集群的方向前进。有两个核心问题,近2年-3年一直困扰着中国AI产业——如何用国产AI芯片训练出能够媲美国际科技巨头的大模型?如何让国产AI芯片持续迭代,跟上芯片工艺制程的演进。
随着美国政府的出口管制步步紧逼,这两个命题正变得越来越急迫。但是,盘古Ultra、盘古Ultra MoE这两款大模型,以及CloudMatrix 384“超节点”的出现意味着,国产算力也能训练出世界一流的大模型。国产算力在重重限制下,也能另辟蹊径并持续演进。
昇腾缩小差距的种种系统工程方案,是一种典型的“非对称”竞争。它是特定历史时期和特定限制条件下的有效策略。这为中国未来在可见时间内,突破国产光刻机和更先进工艺制程的国产AI芯片,争取了宝贵的战略窗口。
责编 | 张生婷
题图 | 视觉中国