开始使用 Gemini 2.5 Flash 进行构建

2025年4月17日
Tulsee Doshi Director of Product Management Gemini

今天,我们将通过 Google AI StudioVertex AI 的 Gemini API 推出 Gemini 2.5 Flash 早期预览版。在广受欢迎的 2.0 Flash 基础之上,此新版本在推理能力方面实现了重大升级,同时仍可优先考虑速度和成本。Gemini 2.5 Flash 是我们的首个完全混合推理模型,让开发者可以自主开启或关闭“思考”功能。开发者还可以借此模型设置思考预算,以在质量、成本和延迟之间做出正确取舍。即使关闭思考功能,开发者仍可维持 2.0 Flash 的超快速度并提升性能。

我们的 Gemini 2.5 模型属于“思考”模型,能够在做出回应前进行推理。该模型会执行“思考”过程,以更好地理解提示、拆解复杂任务并制定响应计划,而不是立即生成输出。对于需要多步推理的复杂任务(如解决数学难题或分析研究问题),该模型会在执行思考过程之后给出更准确、更全面的答案。事实上,Gemini 2.5 Flash 在 LMArena 的 Hard Prompts 测试中表现强劲,仅次于 2.5 Pro 版本。

Comparison table showing price and performance metrics for LLMs
2.5 Flash 虽成本极低且尺寸超小,但指标与其他一流模型旗鼓相当。

最具成本效益的思考模型

2.5 Flash 在最具性价比模型方面继续保持领先地位。

A graph showing Gemini 2.5 Flash price-to-performance comparison
Gemini 2.5 Flash 为 Google 的质量-成本帕累托最优边界再添新成员。*

精细化的思维管理控制

我们知道,不同案例会以不同的方式权衡质量、成本和延迟。为了让开发者具备灵活性,我们研发出了可供设置的思考预算功能,开发者可借此在模型进行思考的同时,对其可以生成的最大令牌数实现精细控制。预算更高意味着,模型可以更深入地进行推理,进而提高质量。值得注意的是,虽然预算使 2.5 Flash 的思考深度存在上限,但若提示无需深度思考,模型便不会耗尽全部预算。

Plot graphs show improvements in reasoning quality as thinking budget increases
推理质量会随预算增加而提高。

该模型经过训练,可以判断给定提示所需的思考时长,继而根据感知到的任务复杂程度自主决定思考深度。

如果您希望在保持最低成本与延迟的同时,仍能获得优于 2.0 Flash 的性能,可将思考预算设为 0。您也可以选择使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块,为思考阶段设置特定令牌预算。2.5 Flash 的预算范围为 0-24,576 个令牌。

以下提示展示了 2.5 Flash 在默认模式下可能使用的推理强度。


低推理需求提示:

示例 1:“谢谢”用西班牙语怎么说?

示例 2:加拿大有多少个省份?


中等推理需求提示:

示例 1:投掷两个骰子,点数之和为 7 的概率是多少?

示例 2:我所在的健身房会于周一、周三和周五的上午 9 点至下午 3 点,以及周二、周六的下午 2 点至晚上 8 点开放篮球活动。我每周工作 5 天,工作时间为上午 9 点至下午 6 点,我想在平日打 5 个小时篮球,请为我制定可行的时间表。


高推理需求提示:

示例 1:长度 L=3m 的悬臂梁有一个矩形截面(宽度 b=0.1m,高度 h=0.2m),且由钢 (E=200 GPa) 制成。其整个长度承受 w=5 kN/m 的均匀分布载荷,自由端则承受 P=10 kN 的集中载荷。计算最大弯曲应力 (σ_max)。

示例 2:编写函数 evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用以计算电子表格单元格值。

每个单元格包含:

  • 一个数字(例如“3”

  • 或一个使用 +-*/ 和其他单元格的公式,如“=A1 + B1 * 2”

要求:

  • 解析单元格之间的依赖关系。

  • 遵守运算符优先级(*/ 优于 +-)。

  • 检测循环并指出 ValueError(“在<单元格>检测到循环”)

  • eval()。仅使用内置库。


立即开始使用 Gemini 2.5 Flash 进行构建

具备思考能力的 Gemini 2.5 Flash 预览版现可通过 Google AI StudioVertex AI 中的 Gemini API,以及 Gemini 应用中的专用下拉菜单获取。我们建议您试用 thinking_budget 参数,并探索可控推理如何协助您解决更复杂的问题。

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
 
print(response.text)

您可以在开发者文档中查看详细的 API 参考资料和思考指南,或通过 Gemini 实战宝典中的代码示例快速入门。

在发布可全面用于生产环境的正式版之前,我们将继续改进 Gemini 2.5 Flash,并陆续推出更多功能。


*模型定价数据来自 Artificial Analysis 和公司文档