Gemini 2.5 模型现在支持隐式缓存

2025年5月8日
Logan Kilpatrick Group Product Manager

我们在 2024 年 5 月率先推出了上下文缓存,通过显式缓存帮助开发者在向我们的模型传递重复上下文时节省了 75% 的成本。如今,我们在 Gemini API 中推出了备受期待的功能:隐式缓存


使用 Gemini API 实现隐式缓存

隐式缓存直接将缓存成本节约传递给开发者,而无需创建显式缓存。现在,当您向某个 Gemini 2.5 模型发送请求时,如果该请求作为以前的某个请求共享公共前缀,则它有资格获得缓存命中。我们会动态地将成本节约传递给您,提供相同的 75% 令牌折扣。

为了增加请求包含缓存命中的几率,您应该保持请求开头的内容不变,并添加用户的问题或其他上下文等内容,这些内容可能会在提示符结束时从一个请求更改为另一个请求。您可以在 Gemini API 文档中阅读有关使用隐式缓存的更多最佳实践。

为了使更多请求有资格获得缓存命中,我们将 2.5 Flash 的最小请求大小减少到 1024 个令牌,将 2.5 Pro 的减少到 2048 个令牌。


了解 Gemini 2.5 的令牌折扣

如果您想保证节省成本,您仍然可以使用我们的显式缓存 API,该 API 支持我们的 Gemini 2.5 和 2.0 模型。如果您现在正在使用 Gemini 2.5 模型,您会开始在使用情况元数据中看到 cached_content_token_count,这表明请求中缓存的令牌数量,以及因此我们将以较低的价格进行收费。


开始使用

我们很高兴能以更高的成本效益继续推进帕累托最优边界,并期待您对我们的缓存更新提供反馈