Gemini API 让开发者能够使用先进的生成式 AI 模型更简便地构建创新应用程序。Google AI Studio 简化了测试所有 API 功能的过程,允许使用文本、图像甚至视频提示词快速进行原型设计和实验。当开发者想要大规模测试和构建时,便可以利用 Gemini API 提供的所有功能。
Gemini 2.5 Flash 预览版:我们添加了新的 2.5 Flash 预览版 (gemini-2.5-flash-preview-05-20),该预览版在推理、代码和长上下文方面优于之前的版本。2.5 Flash 目前在 LMarena 排行榜上排名第二,仅次于 2.5 Pro。我们还通过此最新更新提高了 Flash 的成本效益,减少了相同性能所需的 Token 数量,从而使评估效率提高了 22%。我们的目标是根据您的反馈不断改进,并尽快正式发布这两个模型。
Gemini 2.5 Pro 和 Flash 文本转语音 (TTS):我们还发布了用于文本转语音 (TTS) 的 2.5 Pro 预览版和 Flash 预览版,这两个模型支持 24 种语言的单个和多个说话者原生音频输出。您可以使用这些模型控制 TTS 的表达方式和风格,从而创建内容丰富的音频输出。而多说话者功能让您可以生成具有多个不同声音的对话,以进行动态交流互动。
Gemini 2.5 Flash 原生音频对话:在预览中,此模型可通过 Live API 生成用于对话的自然声音,支持 30 多种不同的声音和超过 24 种语言。我们还添加了主动音频,使模型可以区分说话者和背景音中的对话,从而知道何时回复。此外,该模型可对用户的情绪表达和语气做出适当的回应。独立的思维模型可以实现更复杂的查询。现在,您可以构建更直观、更自然的对话式 AI 代理和体验,例如增强呼叫中心的互动、开发活灵活现的角色、制作独特的语音角色等。
Lyria RealTime:Gemini API 和 Google AI Studio 现已推出实时音乐生成功能,您可使用文本提示词创建连续的器乐流。借助 Lyria RealTime,我们使用 WebSockets 建立持久的实时通信渠道。该模型通过流畅衔接的小数据块生成音乐,并可根据输入进行调整。想象一下,您将可以在应用中添加响应式配乐或设计一种新型乐器,这会多么神奇!欢迎在 Google AI Studio 中试用 PromptDJ-MIDI 应用和 Lyria RealTime。
Gemini 2.5 Pro Deep Think:我们还在测试 2.5 Pro 的实验性推理模式,目前已经看到这些 Deep Thinking 功能让高度复杂的数学和编码提示词获得了令人难以置信的高性能。我们期待不久后广泛发布该模式,供各位试用。
Gemma 3n:Gemma 3n 是一种生成式 AI 开放模型,针对手机、笔记本电脑和平板电脑等日常设备进行了优化。该模型可以处理文本、音频和视觉输入,还拥有参数高效处理方面的创新,包括分层嵌入 (PLE) 参数缓存和 MatFormer 模型架构,后者可以灵活降低计算和内存要求。
为了帮助开发者理解和调试模型响应,我们在 Gemini API 中添加了 2.5 Pro 和 Flash 的思想总结功能。我们将模型的原始思想综合处理为有用的摘要,其中包含标题、相关详细信息和工具调用。Google AI Studio 中的原始思想链也已随新的思想总结功能更新。
我们推出了具有思考预算的 2.5 Flash,让开发者可以控制模型的思考程度,以平衡模型正在构建的应用的性能、延迟和成本。我们将很快将这一功能扩展到 2.5 Pro。
from google import genai
from google.genai import types
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
model="gemini-2.5-flash-preview-05-20",
contents=prompt,
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_budget=1024,
include_thoughts=True
)
)
)
for part in response.candidates[0].content.parts:
if not part.text:
continue
if part.thought:
print("Thought summary:")
print(part.text)
print()
else:
print("Answer:")
print(part.text)
print()
我们添加了一个新的实验性工具,即网址上下文工具,它可以从您提供的链接中检索更多上下文。您可以单独使用该工具,也可以与其他工具(如 Google 搜索中的 Grounding)一起使用。对于希望使用 Gemini API 构建自己的研究代理的开发者来说,此工具是一个关键的基本模块。
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
response = client.models.generate_content(
model=model_id,
contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
config=GenerateContentConfig(
tools=tools,
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)
我们将通过新的计算机使用工具将 Project Mariner 的浏览器控制功能引入 Gemini API。为了让开发者更轻松地使用此工具,我们将启用创建 Cloud Run 实例的功能。这种实例经过优化配置,可通过 Google AI Studio 一键运行浏览器控制代理。我们已经开始与 Automation Anywhere、UiPath 和 Browserbase 等公司进行早期测试。他们宝贵的反馈将有助于完善相关功能,以便在今年夏天推出更广泛可用的实验性开发者版本。
现在,Gemini API 更广泛地支持 JSON Schema,包括“$ref”(用于引用)等屡受请求的关键词和启用类元组结构的定义的关键词(例如,prefixItems)。
Gemini API 现在可以将 YouTube 视频网址或上传的视频添加到提示词中,使用户能够总结、翻译或分析视频内容。通过这一最近更新,此 API 支持视频剪辑,因此用户可以灵活地分析视频的特定部分。这尤其适合分析超过 8 小时的视频。我们还增加了对动态每秒帧数 (FPS) 的支持,可以为重视速度的游戏或体育等视频提供 60 FPS,为不太重视速度的视频提供 0.1 FPS。为了帮助用户节省 Token,我们还引入了对 3 种不同视频分辨率的支持:高分辨率 (720p)、标准分辨率 (480p) 和低分辨率 (360p)。
Live API 中的级联架构现在支持异步函数调用,确保用户对话持续流畅,不受中断。这意味着,即使 Live 代理忙于在后台执行函数,您只需将行为字段添加到函数定义并将其设置为非阻塞,代理便能继续生成回复。如需更多信息,请阅读 Gemini API 开发者文档。
我们还在测试新的 API,该 API 可让您轻松批量处理请求,并在最多 24 小时的周转时间内收到请求结果。该 API 的价格仅为交互式 API 的一半,但速率上限却提高很多。我们希望在今年夏天更广泛地推出该 API。
以上便是来自今年 I/O 大会的一些总结!借助 Gemini API 和 Google AI Studio,无论您使用自然的音频构建对话式 AI 代理,还是开发分析和生成代码的工具,都可以将想法变为现实。一如既往,如需了解所有最新的代码示例和更多信息,请查看 Gemini API 开发者文档。
浏览本公告,并访问 io.google,查看 2025 年 Google I/O 大会的所有最新动态。