Gemini 1.5 Pro 现已在 180 多个国家/地区推出;新增原生音频理解、系统指令、JSON 模式等功能

四月 09, 2024
Jaclyn Konzelmann Google Labs
Megan Li Google Labs

Google AI Studio 中获取 API 密钥,并开始使用 Gemini API Cookbook

不到两个月前,我们在 Google AI Studio 中推出了新一代 Gemini 1.5 Pro 模型供开发者试用。让我们感到惊讶的是,社区已经能够使用我们开创性的 100 万个上下文窗口进行调试创建学习

今天,我们在 180 多个国家/地区推出了公开预览版的 Gemini 1.5 Pro(可通过 Gemini API 访问),其中包含首次提供的原生音频(语音)理解功能以及用于轻松处理文件的文件 API。我们还将推出系统指令JSON 模式等新功能,让开发者能够更好地控制模型的输出。最后,我们将发布性能优于同类模型的新一代文本嵌入模型。请前往 Google AI Studio,以创建或访问您的 API 密钥,并开始构建。


解锁音频和视频模式的新用例

我们正在扩展 Gemini 1.5 Pro 的输入模式,以便同时在 Gemini API 和 Google AI Studio 中包含音频(语音)理解功能。此外,Gemini 1.5 Pro 现在能够为在 Google AI Studio 中上传的视频提供图像(帧)和音频(语音)推理功能,并且我们期待尽快为此添加 API 支持。

screen grab of a clooege professor using Gemini 1.5 Pro to create a quiz based on their latest lecture video in Google AI Studio
您可以上传讲座的录音,例如 Jeff Dean 的 117,000 多个令牌讲座,然后 Gemini 1.5 Pro 可以使用答案键密钥将其转换为测验。[视频加速演示]

Gemini API 改进

今天,我们将讨论一些热门的开发者请求:

1. 系统指令使用系统指令引导模型作出响应,此功能现已在 Google AI Studio 和 Gemini API 中提供。定义角色、格式、目标和规则,以针对特定用例引导模型的行为。

Image showing where System Instructions is located in Google AI Studio
在 Google AI Studio 中轻松设置系统指令

2. JSON 模式指示模型仅输出 JSON 对象。此模式支持从文本或图像中提取结构化数据。您现在可以开始使用 cURL,对 Python SDK 的支持即将推出。


3. 函数调用改进您现在可以选择模式来限制模型的输出,从而提高可靠性。选择文本、函数调用或仅选择函数本身。


性能更优的新嵌入模型

从今天开始,开发者将能够通过 Gemini API 访问我们的新一代文本嵌入模型。在 MTEB 基准测试中,相较于现有模型,新模型 text-embedding-004(即 Vertex AI 中的 text-embedding-preview-0409)具有更强大的检索性能,并且在各种可比较的维度方面亦有更佳的表现

table showing Gecko: Versativel Text Embeddings Distilled from Large Language Models
在 MTEB 基准测试中,使用 256 个 DIM 输出的“Text-embedding-004”(又名 Gecko)优于所有使用 768 个 DIM 输出的大模型

这些只是将在未来几周推出的众多 Gemini API 和 Google AI Studio 改进中的第一批改进。我们将继续致力于让 Google AI Studio 和 Gemini API 成为使用 Gemini 进行构建的最简单方式。立即开始在 Google AI Studio 中使用 Gemini 1.5 Pro,在我们全新的 Gemini API Cookbook 中探索代码示例和快速入门指南,并在 Discord 上加入我们的社区频道。