小米MiMo API大幅降价背后,技术优化与成本效率的深度解析

软糖碎碎 · 发表于昨天 13:08

最近小米MiMo系列API的大幅降价引发了不少行业关注，官方也发布了推文，详细解释了这次降价的核心逻辑——并非单纯的市场策略调整，而是模型架构与推理优化带来的结构性成本效率提升，最终将优化收益传递给开发者。

首先，这次降价的关键技术支撑，来自推理框架对SWA的分层KV缓存优化。生产环境的测试显示，这一优化能将缓存令牌容量提升5倍，相当于缓存成本直接降低了80%；再结合混合模型中多个全注意力模块间的缓存读取重叠效果，实际成本能得到进一步压缩，这也是输入缓存命中场景降幅最高的核心原因。

同时，MiMo-V2.5系列的模型架构本身，也为成本控制提供了底层基础。官方提到的极端1:7全注意力:SWA稀疏比率，让70层的MiMo-V2.5-Pro的预填充计算量，大致相当于10层的GQA模型，原始推理成本远低于行业平均水平，这为定价留下了充足的空间，输入缓存未命中和输出场景的价格降幅，也正是得益于这些架构层面的优化。

值得注意的是，小米也在推文中提到，不建议其他LLM公司盲目降价，因为只有少数模型架构和推理优化能让API成本避免亏损。以MiMo的降价为例，即使在新价格下让生产推理引擎接近满负荷运转，也仍能基本实现收支平衡，这正是技术优化带来的底气。

从行业层面来看，价格亲民的高性能模型API，将驱动持续且大规模的推理需求，进而拉动整个AI基础设施链的发展，包括芯片、服务器、液冷、数据中心等多个环节，成为AI硬件系统性估值的战略支点。长期来看，这也将为训练和推理管道注入更多低成本计算资源，加速全球AGI在多区域、多技术路线上的并行演进。

官方表示，后续还会发布详细的博客文章，披露更多技术细节，感兴趣的开发者可以持续关注。大家对这次降价背后的技术逻辑，以及对行业的影响有什么看法吗？