AI Agent调研: 从token消耗和用户并发角度看对CPU/GPU需求拉动测算, 现有CPU利用率和采购规划, x86 vs arm性能对比, 大厂自研CPU进展与难点
2/7/2026, 4:45:49 PM
摘要
以下是专家观点:
Patrick:AI agent对于CPU的需求拉动如何?
专家:AI agent的需求变化,需要结合行业发展来看。回到2025年上半年,无论是B端还是C端,大家与AI的交互方式主要还是以大模型直接交互为主。在这种模式下,推理过程主要依赖GPU,CPU更多承担数据分配和预处理的辅助角色。通常在计算节点中,8张GPU卡配备一颗32核CPU,CPU主要负责数据分配。但自2025年上半年起,随着MCP协议的出现,大厂开始基于该协议构建各自的agent框架。例如,阿里推出了Agent Scope,其他厂商...
全文
以下是专家观点:
Patrick:AI agent对于CPU的需求拉动如何?
专家:AI agent的需求变化,需要结合行业发展来看。回到2025年上半年,无论是B端还是C端,大家与AI的交互方式主要还是以大模型直接交互为主。在这种模式下,推理过程主要依赖GPU,CPU更多承担数据分配和预处理的辅助角色。通常在计算节点中,8张GPU卡配备一颗32核CPU,CPU主要负责数据分配。但自2025年上半年起,随着MCP协议的出现,大厂开始基于该协议构建各自的agent框架。例如,阿里推出了Agent Scope,其他厂商也有类似的产品。这样一来,AI应用的开发有了统一的底座,开发者可以在此基础上快速构建和扩展应用。从2025年二季度开始,大厂在原有产品中陆续增加了agent入口。例如,6月高德上线了小高智能体,飞猪推出了“问一问”,第三季度电商平台上线了AI one搜索。这些新入口标志着agent已成为产品体系的重要组成部分。到2025年第四季度,agent的多协同机制进一步完善,出现了如千问APP、豆包、元宝等入口级产品。核心逻辑是通过AI agent入口,改变用户从单一APP寻找产品的方式,转向通过agent获取服务。
在底层算力结构上,过去人和大模型的交互主要依赖GPU,CPU只做数据分配。而在agent时代,CPU的作用发生了变化。每个用户与agent的交互场景都需要调用CPU内核来部署沙箱。沙箱为每个agent提供独立的运行环境,部署在CPU内核中,负责调度、规划和执行多种智能体任务。从用户发起请求到任务结束,整个过程中CPU内核持续为该任务分配资源,直到任务完成并释放资源。随着用户并发量和任务复杂度的提升,CPU内核的需求也随之增加。以任务复杂度为例,复杂任务时,一个CPU核只能承担5~8个agent任务;中等任务可承担约20个;简单任务则可承载40个。日常问答中,约60%的任务为简单任务,30%为中等,10%为复杂任务。例如,简单任务如通过千问点奶茶,整个流程会为你创建七八个agent,持续占用CPU内核直到任务完成。中等任务如春节出行规划,需要调用多个智能体,整个过程可能持续五六分钟,CPU核的承载能力相应下降。复杂任务如行业分析,可能持续15~20分钟,一个CPU核只能支持5~8个任务。此外,agent背后还有AI衍生数据库的推理计算。过去数据库查询只是简单检索,现在AI衍生数据库能直接给出推理后的答案,这一过程同样需要大量CPU资源。还有即将上线的条件记忆模块,可以将静态知识与动态数据分开,静态数据如常识性问答无需推理,直接由CPU外部的字典模块响应,用户量越大,对CPU的需求也越高。总结来看,驱动CPU需求的主要有三股力量:一是agent本身需要沙箱环境,二是AI衍生数据库的高密度存储和推理计算,三是即将上线的条件记忆模块。如果按占比计算,约50%的CPU需求来自agent沙箱,30%来自AI衍生数据库,20%来自条件记忆模块。这三部分共同构成了AI agent时代CPU内核需求的核心来源。
Patrick:如果尝试量化一下,在agent出现之前和之后,比如每1000个token的CPU开销,agent框架下的CPU开销大概会增加几倍?
专家:Agent交互分为多个层级,其中一个是agent之间的调度。在与模型交互时,假设使用了模型的深度思考,平均每次大约涉及2400个token(包括输入和输出)。而在调用agent时,简单任务通常会涉及五六千个token,比例大约是1比2.5到1比3,可能达到七八千个token。此外,agent背后还有AI衍生数据库的推理,这部分需要召回大量数据进行分析和推理,最终呈现给用户的只是推理结果,这部分比例大概是1:5,也就是12000个token。因此整体Agent框架下大概需要消耗2万个token,与模型交互的比例大概是1:10的token消耗。这个是基于简单任务。如果是中等任务大概是1:15,复杂任务大概是1:30。
Patrick:刚才提到的2500 token的基数具体是指什么意思?
专家:在与模型交互时比较容易理解,输入、输出以及思考过程加起来,平均大约是2400个token。比如用户问一个问题,如果叠加思考链,深度思考时token会更多。后台数据显示,在之前的LLM纯文本对话中,用户每个request的输入、输出和思考过程平均是2500个token,这里的一次指的是一个问答,即一个query。从输入到输出的整个过程都算作一个query。
Patrick:如果先不考虑CPU,只讲GPU的开销,是对应的关系吗?简单任务也是五倍的GPU开销吗?
专家:对应的GPU开销也是这样,因为这些任务都需要持续推理,只是有些任务用的是P节点,有些用的是D节点,简单对比就是这样的。
Patrick:Tokens增加了五倍,CPU的开销也是增加了五倍吗,还是有其他的对应关系?
专家:CPU的需求实际上与用户量密切相关。推理部分可以通过token数量大致估算,但CPU更多是与并发用户数相关。例如,假设有1000万、5000万或1亿用户,CPU的配置会根据任务复杂度进行分配。以我们自身为例,简单任务一个CPU核可以对应40个agent,中等任务是20个,复杂任务则是5到8个。取平均值,一个核大约可以同时处理20到25个任务。以1000万用户为单位,如果并发用户数为1000万,按照中等复杂度每个核处理20到25个agent计算,并发用户中大约有30%会同时与AI交互,即300万用户。每个用户的请求平均会调用6个agent,总共就是1800万个agent。再用每个核可处理20个agent计算,约需90万个核。如果每台CPU有96核,则需要大约1万台CPU。
Patrick:1万台CPU是净增量吗?还是说可以利用已有的CPU?现有CPU的利用率如何考虑?
专家:现有的CPU资源主要分布在通用计算上,比如阿里云有200多万台通用服务器,每台32核,总共约6000多万核。这些核主要用于弹性计算(ECS)。但对于AI推理等高并发场景,通常需要64核以上的CPU,因为32核的容易成为瓶颈。会优先利用现有的32核CPU,目前大约还有10%到20%的余量。当整体CPU使用率达到75%时就接近峰值,比如双11期间负载率在65%到70%,平时大约在55%到60%。假设平时负载60%,还有15%到20%的余量可以调度。当余量用完后,就需要扩容多核CPU来支撑业务增长。
Patrick:会考虑冗余吗?比如两倍或三倍的冗余,确保并发不是60%,而是更高的情况下也能应对吗?
专家:通常情况下,1000万用户并发60%已经是非常高的水平,适当增加一倍冗余是可行的。
Patrick:实际并发大概是多少?
专家:是的。只有在活动期间,比如抢红包时,并发才会很高,平时并发并不高。
Patrick:在做采购或资源规划时,会按照多少并发比例来规划?
专家:资源规划时一般按照30%到40%的并发比例,剩余的20%左右会先用现有余量,全部用完后再按照1:2的方式进行扩容。
Patrick:目前阿里云的余量用完了吗?
专家:目前还没有。以双11为例,负载率在65%到70%,日常负载率约为60%,以75%为上限,大约还有15个百分点的余量,相当于30多万台服务器可以作为调度buffer。现在已经开始为2027财年做提前规划,因为多核CPU的交付周期较长,通常需要18周左右,所以会提前为2026年下半年做储备和采购。
Patrick:今年(2026年)会按照多少用户基数进行规划?
专家:今年(2026年)没有大规模扩容。
Patrick:按照我们刚才的计算,1000万用户大约需要2万颗96核CPU。如果采购20万颗CPU,是按照一亿DAU来准备的吗?
专家:是的,因为今年(2026年)千问目标是5000万日活,加上其他业务,达到一亿DAU是比较容易的。
Patrick:刚才的计算是按照简单任务还是平均任务复杂度来算的?
专家:是按照平均复杂度计算的,基本上以中等复杂度为主,平均每个核处理20个agent。
Patrick:腾讯现在是什么计划?
专家:腾讯目前主要在进行微信的重构和元宝的开发。接下来,他们计划将小程序生态进行agent化。未来元宝会有两个入口,一个是在微信联系人置顶,另一个是元宝本身。用户与元宝对话时,不再需要像以前一样逐个进入小程序,而是直接唤醒背后的agent。小程序作为生态支持前端的元宝,元宝则成为agent的总入口,调度多个子智能体。用户在小程序中添加的高频服务会优先被元宝调用。微信拥有10亿级用户,即使只有10%的用户使用agent入口,也有一亿人在日常使用。腾讯目前在香港租用机房,进行海外算力的部署,周边计算也在深圳附近布局。
Patrick:为什么海外没有发红包的营销方式让用户用AI?国内为什么是这种情况?是因为模型agent能力同质化,最后比的是流量逻辑和生态链路的完整性吗?国内agent的商业逻辑是这样吗?
专家:国内巨头之间的入口之争已经开始,春节等高峰期是获取流量的最佳时机。传统业务如电商已到瓶颈期,用户增长和GMV提升空间有限,因此需要构建高频入口,用Agent方式排列业务,包括闪购外卖(高频)、电商(中频)、出行规划和民生服务(中低频)。在AI时代,00后、10后等新用户习惯直接通过智能AI寻找产品和服务,不再依赖传统APP。巨头们抢占新入口,培养用户心智,类似打车习惯从路边转向APP。中国市场有红包裂变的特点,企业愿意投入资金培养用户习惯,通过红包等方式快速拉新,这与中国市场的传播模式有关。
Patrick:刚才提到虽然现在的资源没有用完,但是要提前去规划今年的量,这是各家大厂都在抢CPU的原因,目前确实是已经看到缺货了吗?需要的主要是英特尔的还是AMD的,具体是哪一代的?
专家:英特尔和AMD去年(2025年)12月已通知涨价,Intel涨幅约20%,AMD约15%。交货周期从原来的6-8周延长到14-18周,供给紧张。多核CPU需要先进制程,但GPU扩产抢占了部分产能,这也是导致CPU紧缺的原因。
Patrick:20万颗CPU,相当于每台服务器四颗,就是5到10万台服务器,是这个量级吗?
专家:服务器基本上以四颗CPU为最小单元,整体量级是这样。
Patrick:当前阿里云资源情况,硬件侧最缺的是什么?包括存储、算力GPU、CPU、交换机、网络通信光模块等,能否排序?
专家:最紧缺的是GPU,目前大量使用英伟达老款芯片,急需替换。其次是存储,阿里在做极致个性化推荐,需要长期存储用户数据。第三是光模块和交换机,随着架构升级,铜缆向光纤转变,网络连接和交换机需求增加。CPU排在第四,目前还有一定余量和缓冲周期。
Patrick:CPU在内部资源紧缺的优先级其实没有很高?
专家:CPU目前还有余量,缓冲周期较长,没有达到紧急程度。
匿名投资者:是不是一个沙箱必须占用一个CPU核?
专家:不需要,一个CPU核可以支持二十几个Agent对应的沙箱。中等任务情况下,一个核可以运行约二十个沙箱,一个沙箱独占一核会造成资源浪费,具体取决于任务复杂度。
匿名投资者:CPU未来如果增加需求,是增加X86架构的CPU吗?
专家:未来会同时增加X86和Arm架构的CPU,但X86占比会更高,Arm其次。
匿名投资者:Agent环境下,X86比Arm更适合做Agent吗?
专家:X86单核性能更强,通常在4GHz到5GHz,同时三级缓存更大,有些型号可达512G,其他品牌可能只有256G。主要优势在于单核性能和三级缓存,AMD次之。
匿名投资者:柜外增加的CPU与GPU的通信如何实现?
专家:柜外CPU服务器通过交换节点连接,每个机架有服务器和交换机,交换机通过400G光纤连接。CPU服务器的交换机以400G速率外联,GPU集群汇聚到数据中心节点服务器和交换机,形成虚拟网络,实现互相调度和协作。
匿名投资者:如果CPU持续涨价或业务用量很大,大厂是否会自研CPU?
专家:大厂已经有自研CPU,主要分为Arm架构和国产Risc-V架构。Arm芯片在2023年量产,但因授权问题,最新的Arm V9及N系列未获授权,现有芯片生命周期有限。国产Risc-V芯片去年(2025年)量产,目前在适配操作系统和中间件,预计今年(2026年)下半年可用于高性能服务器。Risc-V单核性能约2.5到3GHz,低于Intel的4到5GHz,但可一定程度弥补,整体性能尚不及海外主流产品。
匿名投资者:自研CPU难度大吗?迭代几代?
专家:CPU设计主要依赖IP,有IP后芯片开发速度较快。难点在于生态适配,需要支持各种操作系统和软件。芯片设计和制造难度不大,复杂度主要在生态适配。
匿名投资者:英特尔是否故意不供货第六代,让第四代和第五代涨价,这是真的吗?
专家:确实如此,目前无法采购最新款CPU,只能拿到上一代产品。英特尔会先消耗老款库存,等库存消耗完才供应新款。现在只能拿到样片,无法大量采购最新款。
匿名投资者:后续CPU的核心数有可能像GPU一样发展到千核以应对沙盒化需求吗?
专家:短期内不太可能,CPU核心数基本维持在96、128、256核水平。要突破千核至少需要两年以上,目前工艺和架构不支持如此多核心,且与IP授权价格相关。未来一两年内256核已是最大规模。
匿名投资者:如何看待英伟达后续推出的Vera CPU?
专家:Vera在英伟达产品线中是非常重要的CPU产品。未来在集群部署中,英伟达会将CPU与GPU绑定销售,类似AMD将CPU和GPU集成在一起。这样可以解决CPU与GPU之间的带宽瓶颈。英伟达的主要策略是通过绑定销售,进一步进入CPU市场,对现有CPU市场会产生一定冲击。
匿名投资者:沙盒环境下有用到Micro VM虚拟机吗?怎么看待相关技术?
专家:VM是CPU虚拟化的基础技术,沙箱是在VM之上的一层。沙箱技术基于容器技术构建,VM作为底层虚拟化技术,在沙箱时代仍然重要。沙箱承载在VM之上,两者在CPU虚拟化中处于不同层级,相互补充。
匿名投资者:VM是自研的还是买订阅的?
专家:VM目前是自研的,过去用过第三方产品,现在逐步转为自研。VM是云厂商的基础技术,必须自主研发。
觉得有帮助?分享给朋友,带来新用户可持续支持我们更新高质量内容。