100Truth - 美股财报会议纪要原文及翻译

以下是专家观点：

Bryce：有信息说谷歌正在尝试移除HBM，设立DRAM内存机柜，通过OCS加CXL进行池化，展望这种技术路线清楚吗？

专家：这个概念已经落地，目前正在寻找和V8P量产时间的契合度。这个方案比增加芯片密度（如从四颗变12颗）和交换tray的NPO需求更有可能，因为它是独立于芯片密度的，无论四颗、八颗、12颗柜子，这个方案的通用性和兼容性更好，不取决于某块芯片密度增加。

主要考虑HBM未来几年产能都紧缺，谷歌一年半前就已考虑这个方案，当时还不是因为HBM缺，而是因为HBM性能上限固定。HBM容量空间是固定的，板载后不能变。而这种方案可以把板载的固定性能上限变成动态可调整。

Bryce：展望这个方案用的是V8P吗？

专家：对，V8P今年（2026年）不可能，今年的柜子马上就要出了，不可能上这个方案。因为这个方案对TPU主板有改造，要把HBM拿下来，主板尺寸也要变化。HBM拿下来后，位置可以放新芯片，会增加芯片密度，这和V8P想增加芯片密度的需求方向契合。

从产品契合度和长线通用性需求来看，这个方案明年（2027年）上量的可能性很高。但是否100%交付，还要看谷歌近期的表态。如果谷歌在2月底前决定采用这个通用方案，3月的一些公开大会或付费论坛上，应该会发布相关信息和详细方案介绍。

Bryce：刚说的是什么会？

专家：和英伟达一起举办的会议，大概在3月份会有两到三个，分别在3月5号、6号以及十几号都有相关会议。只要谷歌参加这些会议，并且在2月底前完成概念阶段、确定方案要上线的话，通常会进行一些市场预热，这也是谷歌一贯的发布习惯。例如，V7发布时有市场宣传，但V8AX和V8X则没有任何消息。

Bryce：如果不用HBM的话，展望是不是其实CoWoS的产能也没有那么紧张了？

专家：是的，产能完全可以释放出来，满足谷歌等量TPU的使用需求。因此，谷歌在这个阶段考虑该方案，实际上有多方面的考量。

Bryce：如果真的是做这种方案的话，您觉得哪些厂商有相关性？

专家：目前国内外主要有三家：Rambus、ALab，以及国内的澜起。Rambus主要做IP授权，提供知识产权，可能会以授权方式合作。根消息，谷歌正在寻找类CXL协议板的EVB研发版供应商。从产品角度看，ALab有可匹配的产品，而Rambus主要专注于存储接口协议，提供授权许可。因此，最终供应商可能会选择一家同时具备知识产权和产品能力的公司，还是由一家提供知识产权，另一家负责硬件产品合作？目前还未确定。如果从产品落地角度看，只有ALab有匹配产品；但从协议定制开发角度看，Rambus的可能性更大。所以个人认为最终可能是多家合作，最后可能是授权协议加硬件代工的方式。

谷歌目前还处于概念落地阶段，真正的产业落地模式要等到方案落地和制图阶段才会确定，现在这些信息仅供参考。

Bryce：除了刚才讲的那些，展望还有哪些环节会比较受益？

专家：OCS肯定受益，CXL相关供应商也会受益。此外，DRAM的需求会大幅增加，不确定国内供应商是否有机会参与这个生态。因为目前DRAM供应商如三星、海力士都在人为控制产能，虽然可以扩产，但为了利润两年内可能不会扩产，这是他们公开且坚定的市场回应。在这种情况下，如果大陆供应商有机会参与并通过审核，可能会平衡DRAM市场价格。除此之外，光接口也会受益。因为有类似CXL的芯片板和光子封装接口，像Lightmatter公司，谷歌与Lightmatter合作，这类接口的产品也会受益。目前具体由谁代工或是否直接采购原厂产品还不清楚。第三个受益环节是OCS，OCS的用量肯定会放大。

Bryce：刚说DRAM也会考虑大陆厂商，但之前不是说谷歌还是要尽量选择与大陆无关的供应商吗？

专家：可以作为第三供应商，不一定要作为第一供应商。

Bryce：但大陆DRAM还是相对敏感的。

专家：如果做成通用型产品，谷歌希望构建通用型方案，就不会在DRAM上做定制化配合类CXL协议的芯片。整个芯片做在主板基座上，而不是DRAM上。如果要做定制化、类似DPI通信协议的DRAM，那国内厂商就没有机会了，这种情形谷歌一般不会考虑大陆厂商，因为涉及敏感信息和方案的独特性，芯片设计制造肯定不会交给大陆供应商，都是海外供应商，这是比较明确的。如果DRAM是通用件，没有定制化修改，只是在主板上作为耗材使用，开放程度会比较高。

Bryce：关于OCS，展望刚提到带动很大，具体应该怎么量化？

专家：个人认为至少会带动一倍以上的OCS使用量。如果采用内存池方案，每个TPU都需要与主板建立单独通信通道，这是必选项，不会少于一个通道。以一个9000颗TPU的集群为例，至少四分之三的TPU需要连接OCS。在3D Torus结构中有16颗芯片不连光口，剩下的全部连光口。也就是说，一个集群里四分之三的芯片要用光口，与OCS相关。按照这个比例计算，每颗芯片至少需要一个端口与后端内存池主板相连。中间可能有类CXL芯片，类似PCIe交换机，在总线上分发和通信，但物理接口上每颗芯片至少要有一个接口。原来HBM显存通道带宽是7.4TB，而板级线缆带宽只有800G，只有八分之一。芯片带出的带宽不能太低，否则系统效率不高。每颗芯片配备一个1.6T光口是必需的。个人估算每块内存主板至少需要六个1.6T端口，端口数量越多，OCS需求就越大，这是毫无疑问的。

Bryce：展望现在的48台OCS主要是rack之间的连接是不同rack之间的TPU对吧？在谷歌定义中，一个pod里不同rack之间的互联属于scale up，而不是scale out对吧？

专家：OCS目前还是用于scale up，没有用于scale out。内存池也属于scale up网络。谷歌就是这样定义的，在一个pod里都属于scale up。

Bryce：那在scale out的情况下，OCS大概是什么量级？

专家：在谷歌的概念里，scale out没有用OCS，都是以太网。谷歌只在封闭的内部网络里使用OCS。scale out属于骨干网或前端网络的一部分，或者说是通用网络。后端网络主要是scale up网络，是AI性能承载的主体。scale out只承担20%的跨pod流量，80%的本地流量由scale up承担。

Bryce：目前来看，比如400多万的TPU量级，展望大概有多少比例会用到scale out架构？

专家：最多40%的可能性，只有40%是外售，35%到40%是外售部分，才有可能把scale up网络换成以太网或CLOS模式。非外售部分全部用OCS，目前还是OCS加3D Torus。外售部分才有可能摒弃OCS和3D Torus，再用以太网统一，因为调试更方便。

匿名投资者：展望谷歌云服务提价的原因是什么？是成本还是Agent需求驱动？客户接受度如何？后续展望如何？

专家：提价原因主要包括成本和需求两方面。市场端和供应端的成本增加都有影响，需求方面没有问题。整体来看，与直接采购英伟达、投入资本支出相比，OPEX的输出对大多数公司来说是更为灵活和舒适的开销，因为无需投入固定资产。

Bryce：展望OCS的规划情况如何？27年可能有7000家甚至1万多，而且OCS也不止一家，包括其他光模块厂商也在布局。

专家：今年这边代工forecast订单约为15000台，forecast一般指6个月订单加12个月预测，这是今年收到的谷歌forecast，采用MEMS方案，另外还有3000台coherent DLC外采。如果今年DLC效果好，明年会加单，这种加单是独立于MEMS方案之外。从侧面验证，仅靠谷歌TPU数量增长不足以支撑OCS大规模放量，肯定有其他解决方案需求。目前大概率是内存集群池方案增加OCS使用，多方交叉验证也证明产品落地可能性很大，尤其在V8P上。

Bryce：当时个人也觉得很奇怪，如果按端口升级的趋势来讲的话，即使是TPU的数量在翻倍的话，OCS可能也不需要这么多，他一家厂商27年就有那么大的话，当时觉得可能有其他的OCS的需求存在。

专家：可能由于内存集群池方案的出现，将增加OCS产能需求，基本可以假设至少1:1增加。TPU跨板OCS连接是一组环，TPU所有板与内存集群池又形成另一组环，至少这个环的需求是1:1，那么需求变为原来的两倍很正常。

Bryce：在400多万颗TPU的量级下，展望大约多少比例的TPU出货量会用于超大集群，需要多pod连接？多少是单pod出货？

专家：现在已经没有单pod的使用，无论内部研发还是外部需求，比如80万颗用于内部研发，也不是全部单pod，其他80%的需求都是super pod互联，没有单pod了，非自用部分已不再采用单pod集群方式。

Bryce：Anthropic下单TPU主要是做训练吗？

专家：V7芯片既可用于训练也可用于推理，但首选还是推理，谷歌主要用于推理。

Bryce：如果是训推一体芯片，展望客户下单TPU后一般是训练完成后直接转推理，使用已采购的存量芯片吗？

专家：是的，客户通常会在完成训练后直接将采购的芯片用于推理。其实要看具体的配置。虽然转化没有问题，但训练主网的配比和推理主网的配比是不一样的，需要重新调整组网。一般来说，同样规模下，训练池会更大，而推理时，比如同样是30万颗芯片，训练可能只需要三个池，甚至一个池，但推理可能需要五到六个甚至更多的推理池，因为推理会有异构的任务。异构任务在获得训练提供的知识库后，会分配到多个pod中去执行，这时每个pod的规模不需要很大。比如以9000多颗芯片为一个pod为单位，两到三个这样的pod就可以完成一个推理子任务就够。不像训练需要海量的单一任务，对性能要求高，所以会组建更大的群。

Bryce：换句话说，即使少数pod，比如9000多颗芯片可以满足某个客户的推理需求，客户采购时还是会选择大集群的pod进行采购吗？

专家：大客户肯定会这样考虑。如果不是大客户，就没有必要进行这样的采购。

调研纪要

摘要

全文