新一代 Gemini 1.5 模型:在 Google AI Studio 中推出不公开预览版

二月 15, 2024
Jaclyn Konzelmann Google Labs
Wiktor Gworek Google Labs

上周,我们在 Gemini Advanced 中发布了 Gemini 1.0 Ultra。现在,您可以通过注册 Gemini Advanced 订阅服务来试用此模型。备受关注的 Gemini 1.0 Ultra 模型可通过 Gemini API 进行访问,并持续面向 Google AI Studio 中的部分开发者和合作伙伴开放使用。

今天,我们怀着同样激动的心情推出新一代 Gemini 1.5 模型。该模型采用了一种新的混合专家(Mixture-of-Experts,简称 MoE)方法来提高效率。该模型会将您的请求路由到一组更小的“专家级”神经网络中,以实现更快捷且高质量的响应。

开发者现在可以注册使用 Gemini 1.5 Pro 的不公开预览版,这是一款经过优化的中等规模多模态模型,可扩展到各种任务。该模型引入了一项新的实验性功能,即长达 100 万个令牌的上下文窗口。在 Google AI Studio 中,开发者将有机会试用这款新模型。Google AI Studio 是利用 Gemini 模型构建应用的最快捷方式,该平台可让开发者轻松地将 Gemini API 集成到他们的应用中。目前,该平台支持全球 180 多个国家和地区使用的 38 种语言。

100 万个令牌:为开发者解锁全新用例

在今天之前,全球公开可用的最大规模语言模型的上下文窗口长度是 20 万个令牌。我们成功地大幅度提升了这一数值,我们现在能够稳定处理长达 100 万个令牌的上下文窗口,创下了大型基础模型中最长的上下文窗口记录。Gemini 1.5 Pro 默认将配备 12.8 万个令牌的上下文窗口,但在今天发布的不公开预览版中,用户将有机会体验到实验性的 100 万个令牌的上下文窗口。

我们非常期待看到更大的上下文窗口所带来的全新可能性。您可以直接在 Google AI Studio 中上传大型 PDF 文件、代码库,甚至是冗长的视频作为提示。Gemini 1.5 Pro 模型能够跨模态进行推理,并输出文本内容。

1) 上传多个文件并提出问题
我们在 Google AI Studio 中添加了一项新功能,允许开发者上传多个文件(如 PDF 文档),并就此提出问题。通过更大的上下文窗口,模型能够吸收更多信息,使得输出结果更加连贯、相关且有用。利用此 100 万个令牌的上下文窗口,我们成功实现了一次性加载超过 70 万字文本。

Gemini 1.5 Pro 可以从 Apollo 11 PDF 转录中查找特定引述并进行推理。 [视频加速演示]

2) 查询整个代码库

借助大型上下文窗口,Gemini 模型还能对整个代码库进行深度分析,从而掌握代码中复杂的关联、模式和逻辑。开发者可以直接从自己的电脑或通过 Google 云端硬盘上传新的代码库,然后利用该模型迅速熟悉并理解代码。

Gemini 1.5 Pro 有助于提高开发者学习新代码库时的效率。 [视频加速演示]

3) 添加完整视频

Gemini 1.5 Pro 还可以对长达 1 小时的视频进行推理。当您将一个视频上传至 Google AI Studio 时,该平台会将其分解为数千帧图像(不包含音频)。由于 Gemini 模型具备多模态处理能力,上传后您便可以执行高度复杂的推理和问题解决任务。

Gemini 1.5 Pro 可以在视频和其他视觉输入中执行推理和问题解决任务。 [视频加速演示]

开发者使用 Gemini 模型进行构建的更多方式

除了向您提供最新的模型创新成果之外,我们还致力于简化您使用 Gemini 模型进行构建的方式:

  • 轻松调整。在 Google AI Studio 平台中,您只需提供一组示例,便能在几分钟内针对自己的特定需求定制 Gemini 模型。此功能将在未来几天内推出。 
  • 新的开发者接口。通过整合 Gemini API,您可以跨 Project IDX 的开发工作区利用新的 Firebase Extensions,或使用我们最新发布的 Google AI Dart SDK,立即开始构建基于 AI 的新功能。 
  • 更低的 Gemini 1.0 Pro 价格在推出新版本的同时,我们也对 Gemini 1.0 Pro 模型进行了更新,更新后的模型使许多 AI 任务在成本和性能之间实现了良好的平衡。与先前宣布的价格相比,今天发布的稳定版在文本输入方面的定价降低了 50%,输出方面的定价则降低了 25%。此外,AI Studio 即将推出按需付费计划。

自去年 12 月以来,各种规模的开发者便开始利用 Gemini 模型进行构建,我们很高兴能够将尖端研究转化为 Google AI Studio 中的早期开发者产品。由于大型上下文窗口功能仍处于实验阶段,此预览版可能会出现一些延迟,但我们很激动能逐步推进这一功能的发布,并不断调整模型和收集您的反馈意见。我们希望您能像我们一样,尽早开始享受使用这一功能的乐趣。