调研纪要

2/4/2026, 1:11:41 PM

摘要

以下是专家观点:

Bryce:有信息说谷歌正在尝试移除HBM,设立DRAM内存机柜,通过OCS加CXL进行池化,展望这种技术路线清楚吗?

专家:这个概念已经落地,目前正在寻找和V8P量产时间的契合度。这个方案比增加芯片密度(如从四颗变12颗)和交换tray的NPO需求更有可能,因为它是独立于芯片密度的,无论四颗、八颗、12颗柜子,这个方案的通用性和兼容性更好,不取决于某块芯片密度增加。

 

主要考虑HBM未来几年产能都紧缺,谷歌一年半前就已考虑这个方案,当时还不是因为HBM缺,而是因为HBM性能上限固定。HBM容量空间是固定的,板载后不能变。而这种方案可以把板载的固定性能上限变成动态可调整。

 

全文

以下是专家观点:

Bryce:有信息说谷歌正在尝试移除HBM,设立DRAM内存机柜,通过OCS加CXL进行池化,展望这种技术路线清楚吗?

专家:这个概念已经落地,目前正在寻找和V8P量产时间的契合度。这个方案比增加芯片密度(如从四颗变12颗)和交换tray的NPO需求更有可能,因为它是独立于芯片密度的,无论四颗、八颗、12颗柜子,这个方案的通用性和兼容性更好,不取决于某块芯片密度增加。

 

主要考虑HBM未来几年产能都紧缺,谷歌一年半前就已考虑这个方案,当时还不是因为HBM缺,而是因为HBM性能上限固定。HBM容量空间是固定的,板载后不能变。而这种方案可以把板载的固定性能上限变成动态可调整。

 

Bryce:展望这个方案用的是V8P吗?

专家:对,V8P今年(2026年)不可能,今年的柜子马上就要出了,不可能上这个方案。因为这个方案对TPU主板有改造,要把HBM拿下来,主板尺寸也要变化。HBM拿下来后,位置可以放新芯片,会增加芯片密度,这和V8P想增加芯片密度的需求方向契合。

 

从产品契合度和长线通用性需求来看,这个方案明年(2027年)上量的可能性很高。但是否100%交付,还要看谷歌近期的表态。如果谷歌在2月底前决定采用这个通用方案,3月的一些公开大会或付费论坛上,应该会发布相关信息和详细方案介绍。

Bryce:刚说的是什么会?

专家:和英伟达一起举办的会议,大概在3月份会有两到三个,分别在3月5号、6号以及十几号都有相关会议。只要谷歌参加这些会议,并且在2月底前完成概念阶段、确定方案要上线的话,通常会进行一些市场预热,这也是谷歌一贯的发布习惯。例如,V7发布时有市场宣传,但V8AX和V8X则没有任何消息。

 

Bryce:如果不用HBM的话,展望是不是其实CoWoS的产能也没有那么紧张了?

专家:是的,产能完全可以释放出来,满足谷歌等量TPU的使用需求。因此,谷歌在这个阶段考虑该方案,实际上有多方面的考量。

 

Bryce:如果真的是做这种方案的话,您觉得哪些厂商有相关性?

专家:目前国内外主要有三家:Rambus、ALab,以及国内的澜起。Rambus主要做IP授权,提供知识产权,可能会以授权方式合作。根消息,谷歌正在寻找类CXL协议板的EVB研发版供应商。从产品角度看,ALab有可匹配的产品,而Rambus主要专注于存储接口协议,提供授权许可。因此,最终供应商可能会选择一家同时具备知识产权和产品能力的公司,还是由一家提供知识产权,另一家负责硬件产品合作?目前还未确定。如果从产品落地角度看,只有ALab有匹配产品;但从协议定制开发角度看,Rambus的可能性更大。所以个人认为最终可能是多家合作,最后可能是授权协议加硬件代工的方式。

 

谷歌目前还处于概念落地阶段,真正的产业落地模式要等到方案落地和制图阶段才会确定,现在这些信息仅供参考。

 

Bryce:除了刚才讲的那些,展望还有哪些环节会比较受益?

专家:OCS肯定受益,CXL相关供应商也会受益。此外,DRAM的需求会大幅增加,不确定国内供应商是否有机会参与这个生态。因为目前DRAM供应商如三星、海力士都在人为控制产能,虽然可以扩产,但为了利润两年内可能不会扩产,这是他们公开且坚定的市场回应。在这种情况下,如果大陆供应商有机会参与并通过审核,可能会平衡DRAM市场价格。除此之外,光接口也会受益。因为有类似CXL的芯片板和光子封装接口,像Lightmatter公司,谷歌与Lightmatter合作,这类接口的产品也会受益。目前具体由谁代工或是否直接采购原厂产品还不清楚。第三个受益环节是OCS,OCS的用量肯定会放大。

Bryce:刚说DRAM也会考虑大陆厂商,但之前不是说谷歌还是要尽量选择与大陆无关的供应商吗?

专家:可以作为第三供应商,不一定要作为第一供应商。

Bryce:但大陆DRAM还是相对敏感的。

专家:如果做成通用型产品,谷歌希望构建通用型方案,就不会在DRAM上做定制化配合类CXL协议的芯片。整个芯片做在主板基座上,而不是DRAM上。如果要做定制化、类似DPI通信协议的DRAM,那国内厂商就没有机会了,这种情形谷歌一般不会考虑大陆厂商,因为涉及敏感信息和方案的独特性,芯片设计制造肯定不会交给大陆供应商,都是海外供应商,这是比较明确的。如果DRAM是通用件,没有定制化修改,只是在主板上作为耗材使用,开放程度会比较高。

 

Bryce:关于OCS,展望刚提到带动很大,具体应该怎么量化?

专家:个人认为至少会带动一倍以上的OCS使用量。如果采用内存池方案,每个TPU都需要与主板建立单独通信通道,这是必选项,不会少于一个通道。以一个9000颗TPU的集群为例,至少四分之三的TPU需要连接OCS。在3D Torus结构中有16颗芯片不连光口,剩下的全部连光口。也就是说,一个集群里四分之三的芯片要用光口,与OCS相关。按照这个比例计算,每颗芯片至少需要一个端口与后端内存池主板相连。中间可能有类CXL芯片,类似PCIe交换机,在总线上分发和通信,但物理接口上每颗芯片至少要有一个接口。原来HBM显存通道带宽是7.4TB,而板级线缆带宽只有800G,只有八分之一。芯片带出的带宽不能太低,否则系统效率不高。每颗芯片配备一个1.6T光口是必需的。个人估算每块内存主板至少需要六个1.6T端口,端口数量越多,OCS需求就越大,这是毫无疑问的。

 

Bryce:展望现在的48台OCS主要是rack之间的连接是不同rack之间的TPU对吧?在谷歌定义中,一个pod里不同rack之间的互联属于scale up,而不是scale out对吧?

专家:OCS目前还是用于scale up,没有用于scale out。内存池也属于scale up网络。谷歌就是这样定义的,在一个pod里都属于scale up。

Bryce:那在scale out的情况下,OCS大概是什么量级?

专家:在谷歌的概念里,scale out没有用OCS,都是以太网。谷歌只在封闭的内部网络里使用OCS。scale out属于骨干网或前端网络的一部分,或者说是通用网络。后端网络主要是scale up网络,是AI性能承载的主体。scale out只承担20%的跨pod流量,80%的本地流量由scale up承担。

 

Bryce:目前来看,比如400多万的TPU量级,展望大概有多少比例会用到scale out架构?

专家:最多40%的可能性,只有40%是外售,35%到40%是外售部分,才有可能把scale up网络换成以太网或CLOS模式。非外售部分全部用OCS,目前还是OCS加3D Torus。外售部分才有可能摒弃OCS和3D Torus,再用以太网统一,因为调试更方便。

 

匿名投资者:展望谷歌云服务提价的原因是什么?是成本还是Agent需求驱动?客户接受度如何?后续展望如何?

专家:提价原因主要包括成本和需求两方面。市场端和供应端的成本增加都有影响,需求方面没有问题。整体来看,与直接采购英伟达、投入资本支出相比,OPEX的输出对大多数公司来说是更为灵活和舒适的开销,因为无需投入固定资产。

 

Bryce:展望OCS的规划情况如何?27年可能有7000家甚至1万多,而且OCS也不止一家,包括其他光模块厂商也在布局。

专家:今年这边代工forecast订单约为15000台,forecast一般指6个月订单加12个月预测,这是今年收到的谷歌forecast,采用MEMS方案,另外还有3000台coherent DLC外采。如果今年DLC效果好,明年会加单,这种加单是独立于MEMS方案之外。从侧面验证,仅靠谷歌TPU数量增长不足以支撑OCS大规模放量,肯定有其他解决方案需求。目前大概率是内存集群池方案增加OCS使用,多方交叉验证也证明产品落地可能性很大,尤其在V8P上。

Bryce:当时个人也觉得很奇怪,如果按端口升级的趋势来讲的话,即使是TPU的数量在翻倍的话,OCS可能也不需要这么多,他一家厂商27年就有那么大的话,当时觉得可能有其他的OCS的需求存在。

专家:可能由于内存集群池方案的出现,将增加OCS产能需求,基本可以假设至少1:1增加。TPU跨板OCS连接是一组环,TPU所有板与内存集群池又形成另一组环,至少这个环的需求是1:1,那么需求变为原来的两倍很正常。

 

Bryce:在400多万颗TPU的量级下,展望大约多少比例的TPU出货量会用于超大集群,需要多pod连接?多少是单pod出货?

专家:现在已经没有单pod的使用,无论内部研发还是外部需求,比如80万颗用于内部研发,也不是全部单pod,其他80%的需求都是super pod互联,没有单pod了,非自用部分已不再采用单pod集群方式。

Bryce:Anthropic下单TPU主要是做训练吗?

专家:V7芯片既可用于训练也可用于推理,但首选还是推理,谷歌主要用于推理。

 

Bryce:如果是训推一体芯片,展望客户下单TPU后一般是训练完成后直接转推理,使用已采购的存量芯片吗?

专家:是的,客户通常会在完成训练后直接将采购的芯片用于推理。其实要看具体的配置。虽然转化没有问题,但训练主网的配比和推理主网的配比是不一样的,需要重新调整组网。一般来说,同样规模下,训练池会更大,而推理时,比如同样是30万颗芯片,训练可能只需要三个池,甚至一个池,但推理可能需要五到六个甚至更多的推理池,因为推理会有异构的任务。异构任务在获得训练提供的知识库后,会分配到多个pod中去执行,这时每个pod的规模不需要很大。比如以9000多颗芯片为一个pod为单位,两到三个这样的pod就可以完成一个推理子任务就够。不像训练需要海量的单一任务,对性能要求高,所以会组建更大的群。

Bryce:换句话说,即使少数pod,比如9000多颗芯片可以满足某个客户的推理需求,客户采购时还是会选择大集群的pod进行采购吗?

专家:大客户肯定会这样考虑。如果不是大客户,就没有必要进行这样的采购。

觉得有帮助?分享给朋友,带来新用户可持续支持我们更新高质量内容。