作者丨思原 编辑丨江蓠、九黎
16年前,在热闹的阿里巴巴十周年庆典上,阿里云默默成立,并且 启动了“飞天”云计算项目,当时国内几乎没人真正理解“云”是什么,只知道这是一件“烧钱无底洞”的事,更没人看得清其未来的商业价值。
然而,正是这个看似“提前了十年”的决策,使阿里在今天AI以及云的热潮中赢得了先手。
过去两年里,云厂商的竞争焦点主要集中在“卷模型”和“卷价格”上,如今,算力成为数字时代的“石油”,云厂商的竞争逻辑也从“应用层”转向了“基础设施层”。
有消息称,阿里的新款AI芯片已经在测试中,且新一代芯片兼容英伟达生态但性能超越H20,新的芯片不再由台积电代工,转为由国内一家企业代工。
图/AI生成
虽然这个消息还未得到官方证实,但消息传出时正值阿里巴巴发布第二季度财报,CEO吴泳铭在电话会议上的说法与传闻并不产生冲突:“根据全球AI芯片的供应和政策的变化,我们其实也有后备方案,和不同的合作伙伴共同去做供应链的不同方式的储备。”
各家自研AI芯片陆续迭代,标志着中国云计算巨头们的竞争已从单纯的价格战、规模战,延伸至底层硬件层面。这不仅是技术自主的突破,更是一场关于未来AI和云计算市场主导权的战略卡位。
这不再是谁能提供更多存储、更快网络的速度竞赛,而是转向了指甲盖大小的硅片上的较量。当算力成为数字时代的"新石油",自研芯片能力正成为云厂商最核心的竞争力。
阿里将行业拖进“芯片竞赛”
过去十多年的时间里,中国云计算行业的共识是“买英伟达、做应用、打价格战”。这一模式的问题在于,云厂商的命门掌握在英伟达手中。
英伟达A100/H100芯片的单价高达1.5万-2万美元,且受美国出口管制限制,一旦供应链断裂,云厂商的业务将面临系统性风险。此外,高昂的GPU成本也严重侵蚀着云厂商的毛利率。
这种“买算力”的模式本质上是“运营游戏”:云厂商通过降价吸引客户,但降价空间有限,因为GPU成本是刚性的。
而根据报道,阿里正在开发的AI芯片,意在填补英伟达在中国市场的空白,目前,这款芯片已进入测试阶段,主要面向更广泛的AI推理任务,还能够兼容英伟达的软件生态,这意味着开发者几乎无需重写代码,就能使用国产芯片。
虽然阿里云暂未对此做出回应,不过事实是阿里自研芯片,是符合行业发展势头的。正如财报所言“我们将继续对客户增长与技术创新进行投入,包括AI产品和服务,以提升AI领域的云采用量,并维持市场领先地位。”
阿里蔡崇信近期表示,AI大模型的建立非常依赖于计算能力,当前国内企业的芯片存货可以支持AI大模型未来18个月的训练需求,但是到了大模型下一阶段的“推理(Inference)”应用,并不一定要使用英伟达最顶级的高端计算芯片,市场上有很多选择。
其实阿里的芯片业务归在阿里云,最早可追溯到7年前收购中天微成立“平头哥”。也是当时,平头哥被一分为二:做RISC-VIP的“玄铁”划到达摩院,主要是技术探索,不以盈利为目标;另一部分留在阿里云,专注自研服务器芯片,已经实际投入使用。
互联网大厂自己做芯片并不稀奇。因为它们本来就有海量的云业务,对芯片和服务器的需求巨大。国外领先的云厂商,亚马逊、谷歌、微软等,无一不在设法走“云+自研芯片”路线,以此降低对外界的依赖。
自研AI推理芯片,一方面可以减少对英伟达等外部供应商的依赖,增强供应链韧性,保证算力供给。另一方面,也能提升其定价权与成本控制能力,降低推理成本,提高毛利率。
阿里自研的倚天和含光芯片,大幅降低了算力成本。反映到云服务上,就是算力性价比提升超过30%,单位算力功耗降低60%。高性价比的AI算力服务,自然会吸引海量的AI开发者和企业客户。
对于国内的云厂商来说,“算力自主可控”便是区别于价格战的新故事,而不管是阿里买寒武纪芯片,还是自研芯片的传闻,都是围绕这个目标来的,未来云计算的竞争规则也将从“运营游戏”(价格战、规模战)升级为“工艺和资本的游戏”。
生态兼容与技术主权的博弈
当阿里在芯片领域高歌猛进时,中国其他云厂商也各自布局,但家家有芯的背后是家家有坎的现实困境。
百度手里的昆仑芯片在性能上不乏亮点,百度昆仑芯超节点在8月宣布全面启用,并接入百度公有云服务。昆仑芯3万卡集群也于今年正式点亮,可同时承载多个千亿参数大模型的全量训练,支持1000个客户同时做百亿参数的大模型精调。
但昆仑芯研发的初衷,是为了百度的AI生态体系服务,跟飞桨PaddlePaddle框架+文心大模型+百度云深度绑定,这就导致了它不是一个开放性的生态,上限受到限制。相比之下,能够兼容英伟达CUDA路线的芯片,可以消除开发者的平台迁移成本,市场的接受度更高。
腾讯此前推出了三款自研芯片,分别为AI推理芯片“紫霄”、视频转码芯片“沧海”以及智能网卡芯片“玄灵”。还曾与AMD合作推出星星海智慧木系GA01 GPU卡。只是这些芯片主要的运用场景各不相同,对业务带来的实际价值也十分有限。
对于AI运算依托的芯片,腾讯管理层在前不久的业绩分享会上表示,芯片进口的情况还需要观察。腾讯目前有足够的芯片来做训练,并升级现有模型,推理方面则有不同的芯片选择。
腾讯管理层还表示,GPU供应情况变幻莫测,公司不会过度依赖于此。如果腾讯有足够的GPU,可以在云上出租更多资源,但云策略不会过度依赖于当前的GPU资源。腾讯会关注一些重要的因素,从而实现云业务更快增长。
腾讯的打法更像个聪明的基金经理,在牌桌上四处下注,这种策略虽然不会输掉整个游戏,但也注定了永远无法All in。换句话说,这种模式分散了风险,但也使其难以形成软硬一体的深度协同效应。
华为凭借昇腾系列芯片在这场竞赛中占据特殊地位。昇腾910作为全球单芯片计算密度最大的AI处理器,算力达到256TFLOPS,是英伟达V100的2倍以上。
但华为面临着最为严峻的挑战——因为制裁被锁在7nm工艺,代工上的限制让单卡能效落后同代GPU20%以上。华为昇腾910C性能据称达到H100的76%,2025年910B/C预计各出货35万片,主要供电信、国企及大型云服务商。
华为云CEO张平安的表态耐人寻味,“芯片重不重要?重要。但更重要的是,能够提供客户所需要的计算结果。”这实际上反映了华为的战略转向——通过系统级创新弥补单点不足。其CloudMatrix384超节点声称每卡性能可达英伟达H20三倍,正是这种思路的体现。
家家有芯,却家家有坎是当下国产云厂商的困境,性能、工艺、生态三道门槛拦住了各大厂商,这些挑战背后是全球芯片产业的竞争升级,中国云厂商的芯片自研不仅是为了应对国内竞争,更是为了在全球AI基础设施竞赛中占据一席之地。
价格战成历史,“成片”将决胜负
云计算行业的终局竞争正在被重新定义。当芯片成为核心竞争力,决定云厂商生死的不再是服务器数量,而是三个关键指标:规模量产能力、先进工艺掌控力和场景优化深度。这三个维度构成了云计算新时代的“生存三定律”。
规模量产能力是降低成本的关键。IDC数据显示,阿里云在中国AI基础设施市场的份额超过第二名和第三名的总和,这种市场地位带来的规模化采购能力,使其芯片研发的固定成本能够摊薄到足够多的用户身上。
相比之下,腾讯的"投资+自用"模式虽然风险较低,但难以形成足够大的量产规模,导致单位成本居高不下。百度和华为则受制于生态和工艺限制,短期内无法实现规模效应。这种差距使得阿里能够以更低的价格提供更高性能的算力服务,形成"规模-成本-市场"的正向循环。
先进工艺掌控力决定技术代差,4nm节点的布局使其芯片能效比相比7nm工艺提升约30%,这种优势在大型数据中心场景下会被放大为巨大的运营成本优势。例如华为昇腾910B因停留在7nm工艺导致能效比落后20%,这个数字背后是每年数亿元的额外支出。
再好的芯片如果不能适配实际应用场景,也无法发挥全部性能。多样化的场景需求为芯片优化提供了丰富的反馈数据,这种"场景定义芯片"的模式,相比单纯追求参数的芯片设计更具实际价值。百度的昆仑芯片和华为的昇腾芯片虽然在特定场景表现出色,但在未来,大家拼的将会是在多元化的场景中的打磨优化能力。
单一维度的突破已不足以改变竞争态势,这三大定律的共同作用,正在重塑云计算行业的竞争格局。
回望云计算的发展历程,从最初的服务器托管到如今的AI算力服务,每一次行业升级都伴随着核心技术的革新。价格战、规模战已成过往,芯片级的竞争刚刚开始,这不仅是企业战略的选择,更是产业发展的必然。
自研芯片背后是百亿级的投入和数年的研发周期。芯片自主化浪潮下,中国云计算市场将重新洗牌。而一次失败流片可能意味着数亿资金的损失和一年的时间窗口,当然,对于没有流片能力的企业,也终将在竞争中被逐渐边缘化。
参考资料:
财联社,《事关AI芯片,阿里发声》
源Byte,《不卖芯片,才是阿里的大生意》
科创 版日报《事关AI芯片!阿里发声:支持国产为真大规模采购寒武纪不实》
量子位,《阿里市值一夜暴涨368亿美元!造AI芯传闻+业绩双重推动,AI产品连续8个季度三位数增长》