调研纪要
2/3/2026, 11:16:34 AM
摘要
全文
以下为专家观点:
能否复盘一下2025年Deepseek模型的整体迭代思路,以及2026年即将发布的新一代模型的技术亮点?
2025年Deepseek模型的迭代主要集中在架构层和功能层两个方面。在架构层面,尽管当前版本没有显著扩展模型参数,但未来计划增加参数数量,以体现Scaling Law逻辑。同时,为了应对未来算力需求的增长,进行了多项降本技术优化,包括稀疏化和训练算子优化,以提升性价比并降低推理成本。在大模型推理过程中,计算精度的优化是关键环节之一。具体来说,可以通过自动分配IP8和16的精度来实现动态路由,而不是像以前那样在特定场景下指定特定的精度。这种动态选择能够提高资源利用率,从而提升整体模型推理的性价比。在功能层面,Deepseek模型逐步拓展到代码相关能力,并达到了SOTA水平。还针对AI智能体场景进行了专门优化,包括开发新的训练思路,如自模拟和自仿真场景训练。此外,设计层面上,实现了推理模式和非推理模式统一,并通过动态路由进行自动调度。即将发布的新一代V4模型在多个方面有显著创新。首先,在多模态理解上有突破,不仅提升了视觉理解能力,还能处理时空逻辑顺序,使其能够理解叙事结构。这种能力在金融、医疗影像等专业领域具有广泛应用前景。其次,V4模型在架构上采用双轴稀疏架构,是Moe的进一步提升,结合Engram论文提到的多token预测技术,大幅提升了性能和效率。此外,长文本处理能力也得到了增强,通过DSA和OCR等技术实现信息压缩,提高了处理长序列文本的效率。
这些创新使得新一代V4模型不仅在功能上实现从0到1的突破,如多模态理解、代码生成等,还通过架构上的改进显著提高了性价比和性能,为大规模商业化应用奠定基础。
Engram技术对KV Cache有何影响,以及对硬件端的影响如何?
传统的大模型推理过程需要将上下文信息存储在KV Cache中,每次生成输出时都需要多次递交tokens。而Engram技术将处理单元从一个token提升到一个模块,这意味着在处理5,000个字时,只需存储200次即可,大幅减少了KV Cache的开销。同时,这也要求底层算力和存储进行特定优化,以支持更大颗粒度的资源调度。
Engram技术如何降低企业使用成本并推动大模型新技术在产业中的应用?
Engram技术通过压缩KV Cache消耗,降低了算力和存储成本,从而提高了性价比。这种成本下降直接推动了大模型新技术在产业中的应用。例如,在agent功能方面,深度研究功能通常需要消耗大量tokens,但通过Engram技术可以显著降低这些消耗,使得企业能够以更低成本提供服务,从而吸引更多用户并增加渗透率。
这种降本增效如何具体影响到存储需求?
虽然Engram技术降低了单位任务量所需的算力和存储,但由于其带来的成本下降,使得更多企业能够负担得起这些高复杂功能。这反过来会导致整体需求量增加,即使单位成本下降,总体需求量仍会上升。因此,对于HBM、DRAM和SSD等存储设备而言,这种放量效应是正面的,因为应用扩展会带动整体存储需求增长。
能否举例说明这种降本增效对于实际应用场景中的传导关系?
以国内大模型应用中具有商业价值的agent功能为例,目前很多公司提供此类服务需付费会员,每月费用约五六十元。然而,由于高昂的计算和存储成本,用户转化率较低。如果通过Engram等新技术降低这些成本,将会员费降至20元左右,可以显著提高用户订阅意愿。据调研数据表明,费用降至20元后,转化率可从0.3%提升至3%-5%,甚至达到5%-8%。这意味着用户数量可能增长10倍以上,即使总体算力成本减少一半,但基础设施需求仍会显著增加。
Engram技术如何影响agent的调用和任务处理?
传统的agent调用,如MCP协议,主要是通过限定特定知识来源来获取上下文信息。Engram技术在此基础上,通过从点状到面状再到块状的信息处理升级,显著提升了上下文处理能力。具体来说,Engram使得agent在处理复杂任务时,可以用更少的步骤完成任务规划,相当于从逐字理解进化到逐词理解。这种推理能力的提升,使得agent在设计复杂任务时更加高效。此外,Engram对外挂RAG板块也有直接影响,通过模块化读取文本token,大幅提升了文本处理能力。
Engram技术对SSD和DRAM需求有何影响?
SSD主要用于持久化存储,例如用户历史上下文、个性化聊天记录以及低频全量知识库。这些内容通常需要长期保存。而高频共享知识则存放在DRAM中,用于快速访问和推理。因此,Engram技术更多地影响DRAM,而对SSD的传导关系较弱。
用户数据持久化策略如何影响SSD需求?
用户数据持久化策略因公司而异,但大多数情况下,由于成本问题,用户数据最多保存一个月,然后滚动刷新。尽管理论上应至少保存一年以提供更好的用户体验,但目前由于成本限制,多数厂商选择短期保存。然而,为了与海外竞争对手如OpenAI保持竞争力,实现长期记忆功能仍然是未来的发展方向。
大模型是否可以实现记忆功能,而无需外挂RAG?
大模型确实具有一定程度的记忆功能,例如能够记录同一会话单元内的上下文。然而,要实现全面记忆,需要确保模型本身具有足够长的上下文长度。此外,还可以为用户开设个性化空间,将其聊天记录作为训练语料自动训练模型,从而实现个性化记忆。这种方法也是可行的,并且不需要外挂RAG,但这种技术可能还没有那么快成熟。
Deepseek的下一代大模型主要是架构上的更新吗?Model One的发布是否与此相关?
是的,Deepseek的下一代大模型主要是架构上的创新。Model One的发布更像是一种市场预热行为,并不代表最终的大模型。春节期间,AI应用预计将继续成为热点。
V4模型发布对AI应用商业化有何影响?是否会加速商业化进程?
V4模型发布将推动AI应用的商业化进程。2026年,一些创新型应用可能通过压缩成本实现盈亏平衡,从而开始盈利。预计26年的AI芯片需求将增加到400多万张,其中国产芯片占比至少达到50-60%。这种基础设施的大规模铺开,将为业务扩展提供充足资源,同时软件成本下降也会提升性价比,加速商业化进程。目前,单靠AI进行营销尚未有多少公司实现盈利,但预期26年这一情况可能改变。C端市场中,代码生成等原生概念更容易产生商业效益,而营销作为直接受益者,其收益面更广,包括自媒体多媒体广告等多模态技术都会受到影响。
新一代模型对训练算力有何影响?
新模型最直接影响的是国产算力兼容性,尤其是推理侧兼容性,这对于国产存储和计算芯片都是利好消息。尽管海外市场份额可能被挤压,但绝对需求量仍会上升。
2026年的数据处理需求增长情况如何?特别是字节、阿里等公司的token消耗量预期如何?
预计2026年数据处理需求将翻倍增长。目前阿里的token消耗接近百万亿级别。
新模型对国产算力卡有哪些利好?哪些算力卡与新模型适配最好?
目前与新模型适配最好的是昇腾系列,主要是昇腾950。此外,昆仑芯、寒武纪、沐曦、摩尔等也有良好的适配性。华为在技术标准上设计芯片架构,并进行了深入优化,使其在整体性能上优于其他几家公司。沐曦、摩尔等在研发投入和合作进度上相对较弱,尤其是在训练业务方面。
新模型发布后,对昇腾系列算力卡的需求会有什么影响?
昇腾950以及寒武纪690等型号都会有更多合作机会。
您认为未来大模型竞争格局将如何变化?
未来大模型的竞争格局可能由互联网大厂主导,而创业公司将在细分领域中占据主导地位。例如,阿里、豆包等拥有大量资源的大厂,在AI大模型业务上具有广泛覆盖能力,并且能够通过云平台提供标准化产品运营,从而在B端业务中占据绝对优势。同时,这些大厂还可以通过自有生态系统,在C端应用中获得明显优势。然而,在一些专业场景中,需要深度行业数据积累的小型创业公司仍然能够发挥重要作用。例如,Kimi专注于效率应用,而智谱则专注于政府相关业务。在医疗领域,则以百川为代表。这种细分市场中的竞争格局将取决于各家公司在特定领域内的深耕能力及交付能力。
大规模AI产品推向市场后,其成本降低会带来哪些影响?渗透率预期如何?
大规模AI产品推向市场并降低成本后,将显著促进AI应用爆发。根据市场调研,如果这些产品能够真正解决用户痛点,并满足高频刚需,其付费转化率预计可达到3%至5%,甚至可能达到5%至8%。这一预期基于目前互联网常见付费转化率约3%的情况,例如视频平台爱奇艺等。如果AI产品能提供更强的用户价值,其转化率逻辑上应高于一般互联网应用。
您如何看待那些专注于应用开发的公司,它们通过调用基础模型并结合工程能力和场景数据进行定制化开发,这些公司是否具有商业和投资价值?
这些专注于应用开发的公司,如Manus,最终被大厂收购,这表明他们意识到本身的竞争力和高的竞争壁垒。如果认为自己能够更好地完成相关业务,就不会选择收购。因此,这类公司的最佳结果通常是被大厂收购。从投资角度来看,如果最终被收购,投资也能形成闭环。值得投资的是那些做得非常垂直、能够真正应用到特定行业实际生产中的公司,而不是那些仅有概念性产品的公司。
对于2026年AI应用技术的发展展望,您认为哪些技术会有显著提升?
2026年,预计AI应用技术将主要在深度研究和多模态两个方向上取得显著进展。纯语言模型的深度研究和视频生成等多模态技术将在2026年显著提升渗透率。这两条线将在下半年或2027年融合,例如在PPT中加入视频演示,从而提升产品附加值。
您如何看待类似Claude Cowork这样的全自动化产品面临的竞争?
Claude Cowork可能面临来自手机厂商的竞争。但手机厂商的痛点是超级应用不给他们开放接口。这些超级厂商如BAT等更有能力推出此类产品。
2026年agent技术的发展前景如何?使用率预期会有怎样的增长?
预计2026年agent技术将迎来大幅增长。在一些有效转化率场景中,用户转化可能从当前0.3%提高到3%左右。然而,这一增长主要体现在存量用户中的纵深转化,而不是整体流量的大幅增加。预计这一转化率将在2026年底实现。
H200芯片放开后,对国内市场有哪些影响?主要用于训练还是推理?
H200芯片主要用于训练,而推理则更多依赖国产芯片。在国内建设算力基建比海外更具经济性和安全性,因为地缘政治紧张时,本土建设能提供更高安全性。此外,在国内进行训练避免了信号传输问题及数据回传成本。因此,从经济角度来看,在国内建设比海外更优。
2026年AI产业中哪些环节值得重视?相较于2025年有哪些变化?
从最直接产生经济效益来看,先进智能扩产、存储芯片扩产是关键环节。国产芯片需求在2026年预计达到约数百万张,因此扩产将带来显著经济效益。尽管市场产能已经扩展,但需求的增长仍然显著。以中兴为例,其产能利用率不足,未来需要进一步提升推理算力和存储能力。这些公司在先进产能拓展方面值得重点关注,包括设备端、材料端以及洁净室等环节。在算力层面上,存储的供需缺口更加尖锐,因此需要特别关注。
在软件领域,2026年哪些应用可能率先实现经济效益?
在软件领域,更快实现经济效益的应用主要集中在编程和营销两个环节。从C端角度来看,这些应用能够更快盈利。在B端,则需关注那些能够私有化部署做得更好的公司。此外,深度研究也是一个重要方向,但其推广速度可能不如面向专业场景的应用。
关于AI编程工具的渗透情况,有哪些具体数据可以参考?
腾讯数据显示,其业务代码中约40%是由AI生成的,AI编程工具在腾讯内部的渗透率超过90%。这一数据可以作为行业标杆。目前,大部分制造业公司的AI编程工具可能不到10%,甚至有些公司对该技术尚不了解。因此,大厂如腾讯、阿里等在这方面具有更快渗透优势。
国内大模型技术与全球领先水平相比如何?有哪些差距或优势?
国内大模型技术相对于全球最新版本,在数学推理和代码生成方面表现较好,在中文环境中整体表现优异。然而,这种领先性通常仅维持三个月左右,可能国际上的新版本发布会迅速超越。
腾讯在多模态功能上的进展如何?
腾讯计划于2026年年中升级其“扫一扫”功能,使其具备多模态实时交互能力。
觉得有帮助?分享给朋友,带来新用户可持续支持我们更新高质量内容。