今天我们很高兴全面分享关于 Gemini 2.5 模型系列的最新进展:
Gemini 2.5 模型是具有思维能力的模型,能够在做出回应之前通过思维进行推理,从而提高性能和准确性。每个模型都可以控制思维预算,让开发者能够在生成响应之前选择模型“思维”的时间和程度。
今天,我们将推出 2.5 Flash-Lite 预览版,其延迟和成本在 2.5 系列中处于最低。它是从我们之前的 1.5 和 2.0 Flash 型号升级而来的,具有成本效益。它还可以在大多数 evals 中提供更好的性能,缩短第一个令牌的时间,同时实现更高的每秒解码令牌。此模型非常适合大规模分类或总结等高吞吐量任务。
Gemini 2.5 Flash-Lite 是一个推理模型,它允许使用 API 参数动态控制思维预算。由于 Flash-Lite 针对成本和速度进行了优化,因此它与我们的其他型号不同,而且“思维”功能在默认情况下处于关闭状态。除了函数调用之外,2.5 Flash-Lite 还支持 Google 搜索中的 Grounding、代码执行和 URL 上下文等所有本机工具。
在过去的一年中,我们的研究团队通过我们的 Flash 模型系列继续推进帕累托边界。最初发布 2.5 Flash 时,我们尚未最终确定 2.5 Flash Lite 的功能。我们还分别推出了“思维”版和“非思维的价格”版,这导致开发者产生了困惑。
随着 Gemini 2.5 Flash 稳定版本的推出(与我们在 Google I/O 上提供的 05-20 型号预览版相同),以及 2.5 Flash 拥有的令人难以置信的性能,我们将更新 2.5 Flash 的定价:
尽管我们力求在预览版和稳定版之间保持定价一致,以最大限度减少干扰,但此次特定调整反映了 Flash 的卓越价值,它仍将提供目前市面上性价比最高的智能服务。
借助 Gemini 2.5 Flash-Lite,我们如今为那些对成本和延迟敏感,且对模型智能需求较低的应用场景提供了更低成本的选择(支持或不支持“思维”模式)。
如果您正在使用 Gemini 2.5 Flash Preview 04-17 版本,现有预览版定价将持续有效,直至计划于 2025 年 7 月 15 日停用该模型端点(届时该模型端点将关闭)。您可以迁移至正式发布的模型“gemini-2.5-flash”,或切换至 2.5 Flash-Lite Preview 作为更低成本的选项。
Gemini 2.5 Pro 的增长和需求不断呈现出了我们所有模型中前所未有的最快态势。为了让更多客户能在生产环境中基于该模型进行开发,我们将把 06-05 版本的模型转为稳定版,同时保持与之前相同的帕累托边界价格点。
我们预计,在需要最高智能和最多功能的场景中,Pro 版本将展现卓越优势,例如编码和代理任务。Gemini 2.5 Pro 是许多深受开发者喜爱的工具的核心。
如果您正在使用 2.5 Pro Preview 05-06 版本,该模型将持续可用至 2025 年 6 月 19 日,之后将停止服务。如果您使用的是 2.5 Pro Preview 06-05 版本,只需将模型字符串更新为“gemini-2.5-pro”即可。
我们迫不及待地期待更多领域从 2.5 Pro 的智能中获益,并期待在不久的将来分享更多关于超越 Pro 版本进行扩展的信息。