Gemini 2.5 Flash-Lite 现已稳定并面向公众发布

2025年7月22日

Logan Kilpatrick Group Product Manager

Zach Gleicher Product Google DeepMind

今天，我们发布了 Gemini 2.5 Flash-Lite 的稳定版本，这是 Gemini 2.5 模型系列中速度最快、成本最低的模型（0.10 美元/100 万个输入令牌，0.40 美元/100 万个输出令牌）。我们构建了 2.5 Flash-Lite，旨在推动每美元投入所能实现的智能水平的提升，该模型具备原生推理能力，在面对更复杂的案例时，用户可以选择性开启这一功能。基于 2.5 Pro 和 2.5 Flash 的发展势头，这款模型完善了 2.5 系列的模型，可投入大规模生产使用。

我们迄今为止最具成本效益和速度最快的 2.5 模型

Comparative table showing capabilities of Gemini 2.5 Flash-Lite, 2.5 Flash, and 2.5 Pro

Gemini 2.5 Flash-Lite 在性能和成本之间取得平衡，并且不会影响质量，特别适用于翻译和分类等对延迟敏感的任务。

以下是它脱颖而出的原因：

速度出色：在大量提示词样本测试中，Gemini 2.5 Flash-Lite 的延迟比 2.0 Flash-Lite 和 2.0 Flash 都要低。

成本效益：这是我们迄今为止成本最低的 2.5 模型，100 万个输入令牌的费用为 0.10 美元，100 万个输出令牌的费用为 0.40 美元，使您可以经济实惠地处理大量请求。在预览版发布后，我们还将音频输入定价降低了 40%。

智能小巧：在编码、数学、科学、推理和多模态理解等广泛的基准测试中，2.5 Flash-Lite 的表现全方位优于 2.0 Flash-Lite。

功能齐全：使用 2.5 Flash-Lite 进行构建时，您不仅可以访问 100 万个令牌的上下文窗口，控制思考预算，还能使用 Grounding with Google Search、代码执行和 URL 上下文等原生工具。

Gemini 2.5 Flash-Lite 的实际表现

自推出 2.5 Flash-Lite 以来，我们已经看到了一些令人难以置信的成功部署，以下是我们最喜欢的一些案例：

Satlyt 正在构建一个分散的空间计算平台，该平台将改变处理和利用卫星数据的方式，用于实时汇总在轨遥测数据、进行自主任务管理和卫星间通信解析。与基线模型相比，2.5 Flash-Lite 的速度十分快，使关键机载诊断的延迟时间减少了 45%，功耗降低了 30%。

HeyGen 使用 AI 为视频内容创建头像，利用 Gemini 2.5 Flash-Lite 实现视频规划的自动化、分析和优化内容并将视频翻译成 180 多种语言。这使他们能够为用户提供全球化、个性化的体验。

DocsHound 使用 Gemini 2.5 Flash-Lite 处理长视频并以低延迟提取数千张屏幕截图，从而将产品演示转化为文档。相较于传统方法，这种方法能够更快地将素材转化为可供 AI 代理使用的综合文档和培训数据。

Evertune 帮助品牌了解各自在 AI 模型中的呈现方式。Gemini 2.5 Flash-Lite 为他们改变了游戏规则，大大加快了数据分析和报告生成的速度。模型出色的性能使他们能够快速扫描并合成大量模型输出，从而为客户提供动态、及时的见解。

您只需在代码中指定“gemini-2.5-flash-lite”即可开始使用 2.5 Flash-Lite。如果您使用的是预览版，则可以切换到“gemini-2.5-flash-lite”，这是相同的基础模型。我们计划在 8 月 25 日删除 Flash-Lite 的预览版别名。

准备好开始构建了吗？立即在 Google AI Studio 和 Vertex AI 中试用稳定版本的 Gemini 2.5 Flash-Lite。

发布于：

下一步