上周,我们在 Gemini Advanced 中发布了 Gemini 1.0 Ultra。现在,您可以通过注册 Gemini Advanced 订阅服务来试用此模型。备受关注的 Gemini 1.0 Ultra 模型可通过 Gemini API 进行访问,并持续面向 Google AI Studio 中的部分开发者和合作伙伴开放使用。
今天,我们怀着同样激动的心情推出新一代 Gemini 1.5 模型。该模型采用了一种新的混合专家(Mixture-of-Experts,简称 MoE)方法来提高效率。该模型会将您的请求路由到一组更小的“专家级”神经网络中,以实现更快捷且高质量的响应。
开发者现在可以注册使用 Gemini 1.5 Pro 的不公开预览版,这是一款经过优化的中等规模多模态模型,可扩展到各种任务。该模型引入了一项新的实验性功能,即长达 100 万个令牌的上下文窗口。在 Google AI Studio 中,开发者将有机会试用这款新模型。Google AI Studio 是利用 Gemini 模型构建应用的最快捷方式,该平台可让开发者轻松地将 Gemini API 集成到他们的应用中。目前,该平台支持全球 180 多个国家和地区使用的 38 种语言。
在今天之前,全球公开可用的最大规模语言模型的上下文窗口长度是 20 万个令牌。我们成功地大幅度提升了这一数值,我们现在能够稳定处理长达 100 万个令牌的上下文窗口,创下了大型基础模型中最长的上下文窗口记录。Gemini 1.5 Pro 默认将配备 12.8 万个令牌的上下文窗口,但在今天发布的不公开预览版中,用户将有机会体验到实验性的 100 万个令牌的上下文窗口。
我们非常期待看到更大的上下文窗口所带来的全新可能性。您可以直接在 Google AI Studio 中上传大型 PDF 文件、代码库,甚至是冗长的视频作为提示。Gemini 1.5 Pro 模型能够跨模态进行推理,并输出文本内容。
1) 上传多个文件并提出问题
我们在 Google AI Studio 中添加了一项新功能,允许开发者上传多个文件(如 PDF 文档),并就此提出问题。通过更大的上下文窗口,模型能够吸收更多信息,使得输出结果更加连贯、相关且有用。利用此 100 万个令牌的上下文窗口,我们成功实现了一次性加载超过 70 万字文本。
借助大型上下文窗口,Gemini 模型还能对整个代码库进行深度分析,从而掌握代码中复杂的关联、模式和逻辑。开发者可以直接从自己的电脑或通过 Google 云端硬盘上传新的代码库,然后利用该模型迅速熟悉并理解代码。
Gemini 1.5 Pro 还可以对长达 1 小时的视频进行推理。当您将一个视频上传至 Google AI Studio 时,该平台会将其分解为数千帧图像(不包含音频)。由于 Gemini 模型具备多模态处理能力,上传后您便可以执行高度复杂的推理和问题解决任务。
除了向您提供最新的模型创新成果之外,我们还致力于简化您使用 Gemini 模型进行构建的方式:
自去年 12 月以来,各种规模的开发者便开始利用 Gemini 模型进行构建,我们很高兴能够将尖端研究转化为 Google AI Studio 中的早期开发者产品。由于大型上下文窗口功能仍处于实验阶段,此预览版可能会出现一些延迟,但我们很激动能逐步推进这一功能的发布,并不断调整模型和收集您的反馈意见。我们希望您能像我们一样,尽早开始享受使用这一功能的乐趣。