I/O 大会宣布的 Gemini API 最新功能

2025年5月23日
Shrestha Basu Mallick Group Product Manager
Logan Kilpatrick Group Product Manager
Alisa Fortin Product Manager
Ivan Solovyev Product Manager

Gemini API 让开发者能够使用先进的生成式 AI 模型更简便地构建创新应用程序。Google AI Studio 简化了测试所有 API 功能的过程,允许使用文本、图像甚至视频提示词快速进行原型设计和实验。当开发者想要大规模测试和构建时,便可以利用 Gemini API 提供的所有功能。


通过此 API 提供的新模型

Gemini 2.5 Flash 预览版:我们添加了新的 2.5 Flash 预览版 (gemini-2.5-flash-preview-05-20),该预览版在推理、代码和长上下文方面优于之前的版本。2.5 Flash 目前在 LMarena 排行榜上排名第二,仅次于 2.5 Pro。我们还通过此最新更新提高了 Flash 的成本效益,减少了相同性能所需的 Token 数量,从而使评估效率提高了 22%。我们的目标是根据您的反馈不断改进,并尽快正式发布这两个模型。

Gemini 2.5 Pro 和 Flash 文本转语音 (TTS):我们还发布了用于文本转语音 (TTS) 的 2.5 Pro 预览版和 Flash 预览版,这两个模型支持 24 种语言的单个和多个说话者原生音频输出。您可以使用这些模型控制 TTS 的表达方式和风格,从而创建内容丰富的音频输出。而多说话者功能让您可以生成具有多个不同声音的对话,以进行动态交流互动。

Gemini 2.5 Flash 原生音频对话:在预览中,此模型可通过 Live API 生成用于对话的自然声音,支持 30 多种不同的声音和超过 24 种语言。我们还添加了主动音频,使模型可以区分说话者和背景音中的对话,从而知道何时回复。此外,该模型可对用户的情绪表达和语气做出适当的回应。独立的思维模型可以实现更复杂的查询。现在,您可以构建更直观、更自然的对话式 AI 代理和体验,例如增强呼叫中心的互动、开发活灵活现的角色、制作独特的语音角色等。

Lyria RealTime:Gemini API 和 Google AI Studio 现已推出实时音乐生成功能,您可使用文本提示词创建连续的器乐流。借助 Lyria RealTime,我们使用 WebSockets 建立持久的实时通信渠道。该模型通过流畅衔接的小数据块生成音乐,并可根据输入进行调整。想象一下,您将可以在应用中添加响应式配乐或设计一种新型乐器,这会多么神奇!欢迎在 Google AI Studio 中试用 PromptDJ-MIDI 应用和 Lyria RealTime。

Gemini 2.5 Pro Deep Think:我们还在测试 2.5 Pro 的实验性推理模式,目前已经看到这些 Deep Thinking 功能让高度复杂的数学和编码提示词获得了令人难以置信的高性能。我们期待不久后广泛发布该模式,供各位试用。

Gemma 3n:Gemma 3n 是一种生成式 AI 开放模型,针对手机、笔记本电脑和平板电脑等日常设备进行了优化。该模型可以处理文本、音频和视觉输入,还拥有参数高效处理方面的创新,包括分层嵌入 (PLE) 参数缓存和 MatFormer 模型架构,后者可以灵活降低计算和内存要求。


此 API 中的新功能

思想总结

为了帮助开发者理解和调试模型响应,我们在 Gemini API 中添加了 2.5 Pro 和 Flash 的思想总结功能。我们将模型的原始思想综合处理为有用的摘要,其中包含标题、相关详细信息和工具调用。Google AI Studio 中的原始思想链也已随新的思想总结功能更新。


思考预算

我们推出了具有思考预算的 2.5 Flash,让开发者可以控制模型的思考程度,以平衡模型正在构建的应用的性能、延迟和成本。我们将很快将这一功能扩展到 2.5 Pro。

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-05-20",
  contents=prompt,
  config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=1024,
      include_thoughts=True
    )
  )
)
 
for part in response.candidates[0].content.parts:
  if not part.text:
    continue
  if part.thought:
    print("Thought summary:")
    print(part.text)
    print()
  else:
    print("Answer:")
    print(part.text)
    print()
Python
不使用流式输出的情况下启用和检索思想总结的示例代码,随回复一起返回最终思想总结。

新网址上下文工具

我们添加了一个新的实验性工具,即网址上下文工具,它可以从您提供的链接中检索更多上下文。您可以单独使用该工具,也可以与其他工具(如 Google 搜索中的 Grounding)一起使用。对于希望使用 Gemini API 构建自己的研究代理的开发者来说,此工具是一个关键的基本模块。

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
 
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
 
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
 
response = client.models.generate_content(
    model=model_id,
    contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
    config=GenerateContentConfig(
        tools=tools,
        response_modalities=["TEXT"],
    )
)
 
for each in response.candidates[0].content.parts:
    print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)
Python
Google 搜索中的 Grounding 和网址上下文的示例代码

计算机使用工具

我们将通过新的计算机使用工具将 Project Mariner 的浏览器控制功能引入 Gemini API。为了让开发者更轻松地使用此工具,我们将启用创建 Cloud Run 实例的功能。这种实例经过优化配置,可通过 Google AI Studio 一键运行浏览器控制代理。我们已经开始与 Automation Anywhere、UiPath 和 Browserbase 等公司进行早期测试。他们宝贵的反馈将有助于完善相关功能,以便在今年夏天推出更广泛可用的实验性开发者版本。


对结构化输出的改进

现在,Gemini API 更广泛地支持 JSON Schema,包括“$ref”(用于引用)等屡受请求的关键词和启用类元组结构的定义的关键词(例如,prefixItems)。


对视频理解的改进

Gemini API 现在可以将 YouTube 视频网址或上传的视频添加到提示词中,使用户能够总结、翻译或分析视频内容。通过这一最近更新,此 API 支持视频剪辑,因此用户可以灵活地分析视频的特定部分。这尤其适合分析超过 8 小时的视频。我们还增加了对动态每秒帧数 (FPS) 的支持,可以为重视速度的游戏或体育等视频提供 60 FPS,为不太重视速度的视频提供 0.1 FPS。为了帮助用户节省 Token,我们还引入了对 3 种不同视频分辨率的支持:高分辨率 (720p)、标准分辨率 (480p) 和低分辨率 (360p)。


异步函数调用

Live API 中的级联架构现在支持异步函数调用,确保用户对话持续流畅,不受中断。这意味着,即使 Live 代理忙于在后台执行函数,您只需将行为字段添加到函数定义并将其设置为非阻塞,代理便能继续生成回复。如需更多信息,请阅读 Gemini API 开发者文档


批处理 API

我们还在测试新的 API,该 API 可让您轻松批量处理请求,并在最多 24 小时的周转时间内收到请求结果。该 API 的价格仅为交互式 API 的一半,但速率上限却提高很多。我们希望在今年夏天更广泛地推出该 API。


开始构建

以上便是来自今年 I/O 大会的一些总结!借助 Gemini API 和 Google AI Studio,无论您使用自然的音频构建对话式 AI 代理,还是开发分析和生成代码的工具,都可以将想法变为现实。一如既往,如需了解所有最新的代码示例和更多信息,请查看 Gemini API 开发者文档

浏览本公告,并访问 io.google,查看 2025 年 Google I/O 大会的所有最新动态。