100Truth - 美股财报会议纪要原文及翻译

以下是专家观点：

Patrick：AI agent对于CPU的需求拉动如何？

专家：AI agent的需求变化，需要结合行业发展来看。回到2025年上半年，无论是B端还是C端，大家与AI的交互方式主要还是以大模型直接交互为主。在这种模式下，推理过程主要依赖GPU，CPU更多承担数据分配和预处理的辅助角色。通常在计算节点中，8张GPU卡配备一颗32核CPU，CPU主要负责数据分配。但自2025年上半年起，随着MCP协议的出现，大厂开始基于该协议构建各自的agent框架。例如，阿里推出了Agent Scope，其他厂商也有类似的产品。这样一来，AI应用的开发有了统一的底座，开发者可以在此基础上快速构建和扩展应用。从2025年二季度开始，大厂在原有产品中陆续增加了agent入口。例如，6月高德上线了小高智能体，飞猪推出了“问一问”，第三季度电商平台上线了AI one搜索。这些新入口标志着agent已成为产品体系的重要组成部分。到2025年第四季度，agent的多协同机制进一步完善，出现了如千问APP、豆包、元宝等入口级产品。核心逻辑是通过AI agent入口，改变用户从单一APP寻找产品的方式，转向通过agent获取服务。

在底层算力结构上，过去人和大模型的交互主要依赖GPU，CPU只做数据分配。而在agent时代，CPU的作用发生了变化。每个用户与agent的交互场景都需要调用CPU内核来部署沙箱。沙箱为每个agent提供独立的运行环境，部署在CPU内核中，负责调度、规划和执行多种智能体任务。从用户发起请求到任务结束，整个过程中CPU内核持续为该任务分配资源，直到任务完成并释放资源。随着用户并发量和任务复杂度的提升，CPU内核的需求也随之增加。以任务复杂度为例，复杂任务时，一个CPU核只能承担5~8个agent任务；中等任务可承担约20个；简单任务则可承载40个。日常问答中，约60%的任务为简单任务，30%为中等，10%为复杂任务。例如，简单任务如通过千问点奶茶，整个流程会为你创建七八个agent，持续占用CPU内核直到任务完成。中等任务如春节出行规划，需要调用多个智能体，整个过程可能持续五六分钟，CPU核的承载能力相应下降。复杂任务如行业分析，可能持续15~20分钟，一个CPU核只能支持5~8个任务。此外，agent背后还有AI衍生数据库的推理计算。过去数据库查询只是简单检索，现在AI衍生数据库能直接给出推理后的答案，这一过程同样需要大量CPU资源。还有即将上线的条件记忆模块，可以将静态知识与动态数据分开，静态数据如常识性问答无需推理，直接由CPU外部的字典模块响应，用户量越大，对CPU的需求也越高。总结来看，驱动CPU需求的主要有三股力量：一是agent本身需要沙箱环境，二是AI衍生数据库的高密度存储和推理计算，三是即将上线的条件记忆模块。如果按占比计算，约50%的CPU需求来自agent沙箱，30%来自AI衍生数据库，20%来自条件记忆模块。这三部分共同构成了AI agent时代CPU内核需求的核心来源。

Patrick：如果尝试量化一下，在agent出现之前和之后，比如每1000个token的CPU开销，agent框架下的CPU开销大概会增加几倍？

专家：Agent交互分为多个层级，其中一个是agent之间的调度。在与模型交互时，假设使用了模型的深度思考，平均每次大约涉及2400个token（包括输入和输出）。而在调用agent时，简单任务通常会涉及五六千个token，比例大约是1比2.5到1比3，可能达到七八千个token。此外，agent背后还有AI衍生数据库的推理，这部分需要召回大量数据进行分析和推理，最终呈现给用户的只是推理结果，这部分比例大概是1:5，也就是12000个token。因此整体Agent框架下大概需要消耗2万个token，与模型交互的比例大概是1:10的token消耗。这个是基于简单任务。如果是中等任务大概是1:15，复杂任务大概是1:30。

Patrick：刚才提到的2500 token的基数具体是指什么意思？

专家：在与模型交互时比较容易理解，输入、输出以及思考过程加起来，平均大约是2400个token。比如用户问一个问题，如果叠加思考链，深度思考时token会更多。后台数据显示，在之前的LLM纯文本对话中，用户每个request的输入、输出和思考过程平均是2500个token，这里的一次指的是一个问答，即一个query。从输入到输出的整个过程都算作一个query。

Patrick：如果先不考虑CPU，只讲GPU的开销，是对应的关系吗？简单任务也是五倍的GPU开销吗？

专家：对应的GPU开销也是这样，因为这些任务都需要持续推理，只是有些任务用的是P节点，有些用的是D节点，简单对比就是这样的。

Patrick：Tokens增加了五倍，CPU的开销也是增加了五倍吗，还是有其他的对应关系？

专家：CPU的需求实际上与用户量密切相关。推理部分可以通过token数量大致估算，但CPU更多是与并发用户数相关。例如，假设有1000万、5000万或1亿用户，CPU的配置会根据任务复杂度进行分配。以我们自身为例，简单任务一个CPU核可以对应40个agent，中等任务是20个，复杂任务则是5到8个。取平均值，一个核大约可以同时处理20到25个任务。以1000万用户为单位，如果并发用户数为1000万，按照中等复杂度每个核处理20到25个agent计算，并发用户中大约有30%会同时与AI交互，即300万用户。每个用户的请求平均会调用6个agent，总共就是1800万个agent。再用每个核可处理20个agent计算，约需90万个核。如果每台CPU有96核，则需要大约1万台CPU。

Patrick：1万台CPU是净增量吗？还是说可以利用已有的CPU？现有CPU的利用率如何考虑？

专家：现有的CPU资源主要分布在通用计算上，比如阿里云有200多万台通用服务器，每台32核，总共约6000多万核。这些核主要用于弹性计算（ECS）。但对于AI推理等高并发场景，通常需要64核以上的CPU，因为32核的容易成为瓶颈。会优先利用现有的32核CPU，目前大约还有10%到20%的余量。当整体CPU使用率达到75%时就接近峰值，比如双11期间负载率在65%到70%，平时大约在55%到60%。假设平时负载60%，还有15%到20%的余量可以调度。当余量用完后，就需要扩容多核CPU来支撑业务增长。

Patrick：会考虑冗余吗？比如两倍或三倍的冗余，确保并发不是60%，而是更高的情况下也能应对吗？

专家：通常情况下，1000万用户并发60%已经是非常高的水平，适当增加一倍冗余是可行的。

Patrick：实际并发大概是多少？

专家：是的。只有在活动期间，比如抢红包时，并发才会很高，平时并发并不高。

Patrick：在做采购或资源规划时，会按照多少并发比例来规划？

专家：资源规划时一般按照30%到40%的并发比例，剩余的20%左右会先用现有余量，全部用完后再按照1:2的方式进行扩容。

Patrick：目前阿里云的余量用完了吗？

专家：目前还没有。以双11为例，负载率在65%到70%，日常负载率约为60%，以75%为上限，大约还有15个百分点的余量，相当于30多万台服务器可以作为调度buffer。现在已经开始为2027财年做提前规划，因为多核CPU的交付周期较长，通常需要18周左右，所以会提前为2026年下半年做储备和采购。

Patrick：今年（2026年）会按照多少用户基数进行规划？

专家：今年（2026年）没有大规模扩容。

Patrick：按照我们刚才的计算，1000万用户大约需要2万颗96核CPU。如果采购20万颗CPU，是按照一亿DAU来准备的吗？

专家：是的，因为今年（2026年）千问目标是5000万日活，加上其他业务，达到一亿DAU是比较容易的。

Patrick：刚才的计算是按照简单任务还是平均任务复杂度来算的？

专家：是按照平均复杂度计算的，基本上以中等复杂度为主，平均每个核处理20个agent。

Patrick：腾讯现在是什么计划？

专家：腾讯目前主要在进行微信的重构和元宝的开发。接下来，他们计划将小程序生态进行agent化。未来元宝会有两个入口，一个是在微信联系人置顶，另一个是元宝本身。用户与元宝对话时，不再需要像以前一样逐个进入小程序，而是直接唤醒背后的agent。小程序作为生态支持前端的元宝，元宝则成为agent的总入口，调度多个子智能体。用户在小程序中添加的高频服务会优先被元宝调用。微信拥有10亿级用户，即使只有10%的用户使用agent入口，也有一亿人在日常使用。腾讯目前在香港租用机房，进行海外算力的部署，周边计算也在深圳附近布局。

Patrick：为什么海外没有发红包的营销方式让用户用AI？国内为什么是这种情况？是因为模型agent能力同质化，最后比的是流量逻辑和生态链路的完整性吗？国内agent的商业逻辑是这样吗？

专家：国内巨头之间的入口之争已经开始，春节等高峰期是获取流量的最佳时机。传统业务如电商已到瓶颈期，用户增长和GMV提升空间有限，因此需要构建高频入口，用Agent方式排列业务，包括闪购外卖（高频）、电商（中频）、出行规划和民生服务（中低频）。在AI时代，00后、10后等新用户习惯直接通过智能AI寻找产品和服务，不再依赖传统APP。巨头们抢占新入口，培养用户心智，类似打车习惯从路边转向APP。中国市场有红包裂变的特点，企业愿意投入资金培养用户习惯，通过红包等方式快速拉新，这与中国市场的传播模式有关。

Patrick：刚才提到虽然现在的资源没有用完，但是要提前去规划今年的量，这是各家大厂都在抢CPU的原因，目前确实是已经看到缺货了吗？需要的主要是英特尔的还是AMD的，具体是哪一代的？

专家：英特尔和AMD去年（2025年）12月已通知涨价，Intel涨幅约20%，AMD约15%。交货周期从原来的6-8周延长到14-18周，供给紧张。多核CPU需要先进制程，但GPU扩产抢占了部分产能，这也是导致CPU紧缺的原因。

Patrick：20万颗CPU，相当于每台服务器四颗，就是5到10万台服务器，是这个量级吗？

专家：服务器基本上以四颗CPU为最小单元，整体量级是这样。

Patrick：当前阿里云资源情况，硬件侧最缺的是什么？包括存储、算力GPU、CPU、交换机、网络通信光模块等，能否排序？

专家：最紧缺的是GPU，目前大量使用英伟达老款芯片，急需替换。其次是存储，阿里在做极致个性化推荐，需要长期存储用户数据。第三是光模块和交换机，随着架构升级，铜缆向光纤转变，网络连接和交换机需求增加。CPU排在第四，目前还有一定余量和缓冲周期。

Patrick：CPU在内部资源紧缺的优先级其实没有很高？

专家：CPU目前还有余量，缓冲周期较长，没有达到紧急程度。

匿名投资者：是不是一个沙箱必须占用一个CPU核？

专家：不需要，一个CPU核可以支持二十几个Agent对应的沙箱。中等任务情况下，一个核可以运行约二十个沙箱，一个沙箱独占一核会造成资源浪费，具体取决于任务复杂度。

匿名投资者：CPU未来如果增加需求，是增加X86架构的CPU吗？

专家：未来会同时增加X86和Arm架构的CPU，但X86占比会更高，Arm其次。

匿名投资者：Agent环境下，X86比Arm更适合做Agent吗？

专家：X86单核性能更强，通常在4GHz到5GHz，同时三级缓存更大，有些型号可达512G，其他品牌可能只有256G。主要优势在于单核性能和三级缓存，AMD次之。

匿名投资者：柜外增加的CPU与GPU的通信如何实现？

专家：柜外CPU服务器通过交换节点连接，每个机架有服务器和交换机，交换机通过400G光纤连接。CPU服务器的交换机以400G速率外联，GPU集群汇聚到数据中心节点服务器和交换机，形成虚拟网络，实现互相调度和协作。

匿名投资者：如果CPU持续涨价或业务用量很大，大厂是否会自研CPU？

专家：大厂已经有自研CPU，主要分为Arm架构和国产Risc-V架构。Arm芯片在2023年量产，但因授权问题，最新的Arm V9及N系列未获授权，现有芯片生命周期有限。国产Risc-V芯片去年（2025年）量产，目前在适配操作系统和中间件，预计今年（2026年）下半年可用于高性能服务器。Risc-V单核性能约2.5到3GHz，低于Intel的4到5GHz，但可一定程度弥补，整体性能尚不及海外主流产品。

匿名投资者：自研CPU难度大吗？迭代几代？

专家：CPU设计主要依赖IP，有IP后芯片开发速度较快。难点在于生态适配，需要支持各种操作系统和软件。芯片设计和制造难度不大，复杂度主要在生态适配。

匿名投资者：英特尔是否故意不供货第六代，让第四代和第五代涨价，这是真的吗？

专家：确实如此，目前无法采购最新款CPU，只能拿到上一代产品。英特尔会先消耗老款库存，等库存消耗完才供应新款。现在只能拿到样片，无法大量采购最新款。

匿名投资者：后续CPU的核心数有可能像GPU一样发展到千核以应对沙盒化需求吗？

专家：短期内不太可能，CPU核心数基本维持在96、128、256核水平。要突破千核至少需要两年以上，目前工艺和架构不支持如此多核心，且与IP授权价格相关。未来一两年内256核已是最大规模。

匿名投资者：如何看待英伟达后续推出的Vera CPU？

专家：Vera在英伟达产品线中是非常重要的CPU产品。未来在集群部署中，英伟达会将CPU与GPU绑定销售，类似AMD将CPU和GPU集成在一起。这样可以解决CPU与GPU之间的带宽瓶颈。英伟达的主要策略是通过绑定销售，进一步进入CPU市场，对现有CPU市场会产生一定冲击。

匿名投资者：沙盒环境下有用到Micro VM虚拟机吗？怎么看待相关技术？

专家：VM是CPU虚拟化的基础技术，沙箱是在VM之上的一层。沙箱技术基于容器技术构建，VM作为底层虚拟化技术，在沙箱时代仍然重要。沙箱承载在VM之上，两者在CPU虚拟化中处于不同层级，相互补充。

匿名投资者：VM是自研的还是买订阅的？

专家：VM目前是自研的，过去用过第三方产品，现在逐步转为自研。VM是云厂商的基础技术，必须自主研发。

AI Agent调研: 从token消耗和用户并发角度看对CPU/GPU需求拉动测算, 现有CPU利用率和采购规划, x86 vs arm性能对比, 大厂自研CPU进展与难点

摘要

全文