开始使用 Gemini 2.5 Flash 进行构建

2025年4月17日

Tulsee Doshi Director of Product Management Gemini

今天，我们将通过 Google AI Studio 和 Vertex AI 的 Gemini API 推出 Gemini 2.5 Flash 早期预览版。在广受欢迎的 2.0 Flash 基础之上，此新版本在推理能力方面实现了重大升级，同时仍可优先考虑速度和成本。Gemini 2.5 Flash 是我们的首个完全混合推理模型，让开发者可以自主开启或关闭“思考”功能。开发者还可以借此模型设置思考预算，以在质量、成本和延迟之间做出正确取舍。即使关闭思考功能，开发者仍可维持 2.0 Flash 的超快速度并提升性能。

我们的 Gemini 2.5 模型属于“思考”模型，能够在做出回应前进行推理。该模型会执行“思考”过程，以更好地理解提示、拆解复杂任务并制定响应计划，而不是立即生成输出。对于需要多步推理的复杂任务（如解决数学难题或分析研究问题），该模型会在执行思考过程之后给出更准确、更全面的答案。事实上，Gemini 2.5 Flash 在 LMArena 的 Hard Prompts 测试中表现强劲，仅次于 2.5 Pro 版本。

Comparison table showing price and performance metrics for LLMs

2.5 Flash 虽成本极低且尺寸超小，但指标与其他一流模型旗鼓相当。

最具成本效益的思考模型

2.5 Flash 在最具性价比模型方面继续保持领先地位。

A graph showing Gemini 2.5 Flash price-to-performance comparison

Gemini 2.5 Flash 为 Google 的质量-成本帕累托最优边界再添新成员。*

精细化的思维管理控制

我们知道，不同案例会以不同的方式权衡质量、成本和延迟。为了让开发者具备灵活性，我们研发出了可供设置的思考预算功能，开发者可借此在模型进行思考的同时，对其可以生成的最大令牌数实现精细控制。预算更高意味着，模型可以更深入地进行推理，进而提高质量。值得注意的是，虽然预算使 2.5 Flash 的思考深度存在上限，但若提示无需深度思考，模型便不会耗尽全部预算。

Plot graphs show improvements in reasoning quality as thinking budget increases

推理质量会随预算增加而提高。

该模型经过训练，可以判断给定提示所需的思考时长，继而根据感知到的任务复杂程度自主决定思考深度。

如果您希望在保持最低成本与延迟的同时，仍能获得优于 2.0 Flash 的性能，可将思考预算设为 0。您也可以选择使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块，为思考阶段设置特定令牌预算。2.5 Flash 的预算范围为 0-24,576 个令牌。

以下提示展示了 2.5 Flash 在默认模式下可能使用的推理强度。

低推理需求提示：

示例 1：“谢谢”用西班牙语怎么说？

示例 2：加拿大有多少个省份？

中等推理需求提示：

示例 1：投掷两个骰子，点数之和为 7 的概率是多少？

示例 2：我所在的健身房会于周一、周三和周五的上午 9 点至下午 3 点，以及周二、周六的下午 2 点至晚上 8 点开放篮球活动。我每周工作 5 天，工作时间为上午 9 点至下午 6 点，我想在平日打 5 个小时篮球，请为我制定可行的时间表。

高推理需求提示：

示例 1：长度 L=3m 的悬臂梁有一个矩形截面（宽度 b=0.1m，高度 h=0.2m），且由钢 (E=200 GPa) 制成。其整个长度承受 w=5 kN/m 的均匀分布载荷，自由端则承受 P=10 kN 的集中载荷。计算最大弯曲应力 (σ_max)。

示例 2：编写函数 evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]，用以计算电子表格单元格值。

每个单元格包含：

一个数字（例如“3”）

或一个使用 +、-、*、/ 和其他单元格的公式，如“=A1 + B1 * 2”。

要求：

解析单元格之间的依赖关系。

遵守运算符优先级（*/ 优于 +-）。

检测循环并指出 ValueError（“在<单元格>检测到循环”）。

无 eval()。仅使用内置库。

立即开始使用 Gemini 2.5 Flash 进行构建

具备思考能力的 Gemini 2.5 Flash 预览版现可通过 Google AI Studio 和 Vertex AI 中的 Gemini API，以及 Gemini 应用中的专用下拉菜单获取。我们建议您试用 thinking_budget 参数，并探索可控推理如何协助您解决更复杂的问题。

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
 
print(response.text)

Python

您可以在开发者文档中查看详细的 API 参考资料和思考指南，或通过 Gemini 实战宝典中的代码示例快速入门。

在发布可全面用于生产环境的正式版之前，我们将继续改进 Gemini 2.5 Flash，并陆续推出更多功能。

^*_{^{模型定价数据来自 Artificial Analysis 和公司文档}}