NVIDIA的GPU霸主地位正在受到挑战。超大规模云厂商整合需求、自研芯片崛起、分布式计算兴起,预示着其市场优势的动摇。
NVIDIA曾是AI热潮的最大赢家。凭借GPU的垄断地位和AI计算需求的爆炸式增长,这家公司以惊人速度崛起,仅13个月就新增2万亿美元市值,利润率堪比软件即服务企业。H100芯片的定价巅峰让NVIDIA财源滚滚,尽管新款B200利润率略降、成本上升,但短期内缺乏替代品仍确保其现金流强劲。然而,长期来看,六年后的市场格局是否依然如此?答案并不乐观。
变化正在悄然发生。超大规模云厂商(如Google、Microsoft、Amazon、Meta)正迅速整合AI加速器的需求,成为市场主导者。与此同时,它们投入巨资研发自有芯片,展现出不容小觑的竞争力。比如,Google的TPU已迭代至第六代(Trillium),性能翻倍,能效提升,成功训练了Gemini-Ultra这样的前沿模型。Meta也将自研的MTIA芯片用于Instagram和WhatsApp的AI推理任务,逐步减少对NVIDIA的依赖。
需求结构的转变也在削弱NVIDIA的根基。初创企业对GPU的疯狂采购曾推高市场热潮,但如今许多初创公司发现,租用云服务比自建基础设施更划算。过量采购的GPU导致低利用率和糟糕的投资回报,迫使一些公司低价出租库存,令人想起互联网泡沫时期企业为服务器硬件辩护的窘境。更关键的是,AI模型的开发正向少数闭源API集中,即使开源和边缘模型也多由超大规模云厂商掌控。专有小型模型(如Bloomberg GPT)因成本高、泛化能力弱而举步维艰,市场需求进一步向头部厂商倾斜。
独立云服务商(如Coreweave、Lambda)的未来同样堪忧。NVIDIA曾通过投资和优先分配GPU支持这些公司,以分散对超大规模云厂商的依赖。然而,这些小型云商缺乏产品多样性和基础设施优势,难以建立客户黏性,只能出售廉价的H100计算时长。随着NVIDIA产量提升,GPU稀缺性下降,价格战已将租赁成本压低40%以上,部分厂商的每小时租金低至1.99美元,投资回报率不足10%。若价格跌破1.65美元,亏损将不可避免。相比之下,超大规模云厂商凭借规模经济和基础设施经验,轻松应对折旧和停机成本,赢得高利润和客户信任。
计算需求的激增也带来了新挑战。资本支出、电力供应和基础设施建设已逼近极限,迫使行业转向分布式、垂直整合的系统,涵盖芯片、机架、网络、冷却和软件。NVIDIA作为单一硬件供应商,难以适应这一趋势。Google的策略颇具代表性:放弃大芯片,采用小型ASIC集群,通过低成本铜缆连接64个TPU,并使用独特的多维网络拓扑结构,显著降低能耗和延迟。Microsoft则计划自建光纤网络,连接远距离数据中心,实现跨区域训练。这些分布式系统不仅降低成本,还能利用现有设施,延长老旧芯片的使用寿命。
在软件层面,NVIDIA的短板同样明显。超大规模云厂商拥有更强大的内部解决方案。例如,Google的Pathways软件能有效处理故障,优于NVIDIA的诊断工具DCGM。Microsoft的Singularity和Google的Borg在集群管理和任务调度上也远超NVIDIA的BaseCommand。NVIDIA试图通过Blackwell芯片和Spectrum-X网络解决方案迎头赶上,但与超大规模云厂商的深度整合能力相比,仍显不足。以冷却技术为例,Google早在2018年就全面采用液体冷却,数据中心能效比NVIDIA高出30%,占地面积节省50%。
NVIDIA的困境并非无解,但挑战巨大。它试图通过DGX Cloud等服务向上游延伸,却难以跳出数据中心优化的视野,而未来属于跨区域的云校园。超大规模云厂商的垂直整合能力,正在重塑AI计算的竞争格局。NVIDIA即便拥有最强的GPU,也可能在这场系统级较量中败北。正如莎士比亚所言,戴王冠的头是不能安于他的枕席的。
本文译自 mohitdagarwal,由 BALI 编辑发布。
数据加载中...BIU...BIU...BIU...