摘要
以下是专家观点:
Patrick:在Agent执行过程中,是否会做一些优化,比如调用更简单或轻量化的模型?在整个理解阶段和执行阶段,模型是如何分配和优化的?
专家:在整个理解阶段,主要是规划智能体,这部分通常由最强大的模型负责。到了执行阶段,可以调用不同大小的模型来支持,同时背后有一套工具矩阵,有些面向业务流,有些面向底层模型或延伸agent。节约算力的方式主要是在推理过程中,有些KV需要存储下来,如果命中缓存,就可以直接从KV中抽取结果,无需从零计算。通过这种方式,用存储来换取算力。一般来说,最高可以命中67%的...
全文
全文为付费会员专享,免费用户仅可阅读摘要。
觉得有帮助?分享给朋友,带来新用户可持续支持我们更新高质量内容。