生产就绪型 Gemini 模型更新、1.5 Pro 定价降低、速率限制提高及更多更新

2024年9月24日

Logan Kilpatrick Group Product Manager

Shrestha Basu Mallick Product Google DeepMind

今天，我们将推出两款更新的生产就绪型 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002，同时发布以下更新：

1.5 Pro 价格降低 >50%（对于提示词长度 <128K 的输入和输出）
1.5 Flash 的速率限制提高 2 倍；1.5 Pro 的速率限制提高约 3 倍
输出速度提高 2 倍，延迟降低 3 倍
更新了默认过滤器设置

这些新模型基于我们最新的实验模型版本，并对 5 月份在 Google I/O 大会上发布的 Gemini 1.5 模型进行了有意义的改进。开发者可以通过 Google AI Studio 和 Gemini API 免费访问我们的最新模型。对于大型组织和 Google Cloud 客户，这些模型也在 Vertex AI 上提供。

整体质量改进，在数学、长文本理解和视觉方面有显著提升

Gemini 1.5 系列模型旨在广泛应用于各种文本、代码和多模态任务中，提供全面的性能。例如，Gemini 模型可用于从 1,000 页的 PDF 文档中综合信息、回答包含超过 1 万行代码的代码库相关问题、处理长达一小时的视频并从中创建有用的内容，等等。

经过最近一次的更新，1.5 Pro 和 Flash 现在在生产环境中构建时表现更好、速度更快且成本效益更高。模型在 MMLU-Pro 测试（常见 MMLU 基准测试的更具挑战性版本）中的性能提升了约 7%。在 MATH 和 HiddenMath（内部专用的竞争数学问题集合）基准测试中，两个模型都取得了显著的约 20% 的改进。在视觉和代码用例中，这两个模型在衡量视觉理解和 Python 代码生成能力的评估测试中也有进步，提升幅度从约 2% 到 7% 不等。

A table showcasing benchmark data, demonstrating improved performance for the latest Gemini models, Gemini 1.5 Pro and Gemini 1.5 Flash. The table highlights advancements in various capabilities including reasoning, code, and math

我们还提高了模型响应的整体实用性，同时继续遵守我们的内容安全政策和标准。这意味着在许多话题上，模型会减少回避或拒绝回答的情况，提供更多有帮助的响应。

根据开发者的反馈，两个模型现在采用了更加简洁的风格，旨在使这些模型更易于使用并降低成本。对于总结、问答和信息提取等用例，更新模型的默认输出长度比之前的模型短约 5-20%。对于聊天型产品，如果用户默认偏好更长的响应，您可以阅读我们的提示策略指南，详细了解如何使模型输出更详细和更具对话性。

有关迁移到最新版本的 Gemini 1.5 Pro 和 1.5 Flash 的更多详细信息，请参阅 Gemini API 模型页面。

Gemini 1.5 Pro

Gemini 1.5 Pro 的 200 万令牌长上下文窗口和多模态功能所带来的创新和实用应用场景令我们惊叹不已。从视频理解到处理 1,000 页的 PDF，仍有许多新的应用场景有待开发。今天，我们宣布，对于我们 1.5 系列的最强模型 Gemini 1.5 Pro，在提示词少于 128K 令牌的情况下，输入令牌的价格将降低 64%，输出令牌的价格将降低 52%，增量缓存令牌的价格将降低 64%，价格调整将于 2024 年 10 月 1 日起生效。结合下文缓存功能，这将继续降低使用 Gemini 构建应用的成本。

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

速率限制提高

为了让开发者更轻松地使用 Gemini 进行构建，我们将 1.5 Flash 的付费等级速率限制从 1,000 RPM 提高到 2,000 RPM，并将 1.5 Pro 的付费等级速率限制从 360 RPM 提高至 1,000 RPM。在接下来的几周内，我们预计将继续提高 Gemini API 的速率限制，以便开发者可以使用 Gemini 构建更多内容。

输出速度提高 2 倍，延迟降低 3 倍

除了对我们最新模型的核心改进之外，在过去的几周里，我们还大幅降低了 1.5 Flash 的延迟，并显著提高了每秒输出令牌数，使得我们的最强大模型能够支持新的用例。

Side-by-side graphs charting the latency of Google's Gemini model over time, showing improvements.

过滤器设置更新

自 2023 年 12 月 Gemini 首次发布以来，构建安全可靠的模型一直是我们的重中之重。在最新的 Gemini 版本（-002 模型）中，我们改进了模型在遵循用户指令的同时平衡安全性的能力。我们将继续提供一系列安全过滤器，供开发者应用于 Google 的模型。我们今天发布的模型默认不应用过滤器，这样一来开发者便可根据自己的用例选择最适合的配置。

Gemini 1.5 Flash-8B 实验性更新

我们将针对 8 月份发布的 Gemini 1.5 模型推出进一步的改进版本，名为“Gemini-1.5-Flash-8B-Exp-0924”。此改进版本在文本和多模式用例中都实现了显著性能提升。开发者现在可通过 Google AI Studio 和 Gemini API 获得该版本。

开发者对 1.5 Flash-8B 给出了高度正面的评价，这让我们感到非常高兴。我们将继续根据开发者的反馈来改进我们的实验到生产发布流水线。

我们对这些更新感到非常激动，并迫不及待地想看到您用新的 Gemini 模型构建出的作品！对于 Gemini Advanced 用户，我们很快将推出针对聊天优化的 Gemini 1.5 Pro-002 版本。

发布于：

下一步