面向开发者的 Gemini 时代新篇章

十二月 11, 2024
Shrestha Basu Mallick Group Product Manager Gemini API
Kathy Korevec Director of Product Google Labs

我们通过一系列工具,例如尖端模型、可更快编写代码的智能工具以及跨平台和设备的无缝集成,助力开发者构建 AI 的未来。自去年 12 月我们推出 Gemini 1.0 以来,已有数百万开发者应用 Google AI StudioVertex AI,在 109 种语言中使用 Gemini 进行构建

今天,我们宣布推出 Gemini 2.0 Flash Experimental,以支持更具沉浸感和交互性的应用程序;此外,该版本还提供新的编码代理,它可以代表开发者采取行动,从而改进工作流程。


使用 Gemini 2.0 Flash 构建

在 Gemini 1.5 Flash 成功的基础上,Flash 2.0 的速度是 1.5 Pro 的两倍,并具有更优越的性能,包括新的多模态输出,还支持原生工具。我们还推出了多模态实时 API,用于通过实时音频和视频串流构建动态应用程序。

从今天开始,开发者可以通过 Google AI StudioVertex AI 中的 Gemini API,测试和探索实验阶段的 Gemini 2.0 Flash;正式版预计于明年初全面推出。

借助 Gemini 2.0 Flash,开发者可以访问:

1. 更优越的性能

Gemini 2.0 Flash 比 1.5 Pro 更强大,同时还能满足开发者对 Flash 速度和效率的期待。它还改进了关键基准的多模态、文本、代码、视频、空间理解和推理性能。经改进的空间理解可在杂乱图像中的小对象上更准确地生成边界框,并提供更好的对象识别能力和字幕。如需了解详情,请观看空间理解视频或阅读 Gemini API 文档

Link to Youtube Video (visible only when JS is disabled)

2. 全新输出模式

开发者将能够通过单个 API 调用,使用 Gemini 2.0 Flash 生成集成响应,包括文本、音频和图像。这些新的输出模式可供早期测试人员使用,预计明年将在更大范围内推广。所有图像和音频输出中都将启用 SynthID 隐形水印,这有助于减少错误信息和错误归因问题。

  • 多语言原生音频输出:Gemini 2.0 Flash 具有原生文字转语音的音频输出功能,开发者可借此实现精细控制,不仅可以控制模型输出的内容,还可以选择输出方式,包括 8 种高质量声音类型以及各种语言和口音。听取原生音频输出实例,或在开发者文档中阅读更多内容。

  • 原生图像输出:Gemini 2.0 Flash 现可生成原生图像,还支持对话式多轮编辑,因此您可以在之前输出的基础上进行构建和细化。它可以输出交错的文本和图像,因此对于配方等多模态内容很有用。在原生图像输出视频中查看更多内容。

Link to Youtube Video (visible only when JS is disabled)

3. 支持原生工具

Gemini 2.0 受过训练,能够使用工具,这是构建代理体验的一项基础功能。除了通过函数调用自定义第三方函数之外,它还可以原生调用 Google 搜索和代码执行等工具。使用原生 Google 搜索工具,可以获得更真实、更全面的答案,并增加发布商的流量。它可以并行运行多个搜索,同时从多个来源搜索更多相关事实进行综合,以提升准确率,从而改进信息检索功能。在原生工具使用视频中了解详情,或从笔记本上开始构建。

Link to Youtube Video (visible only when JS is disabled)

4. 多模态实时 API

开发者现可使用摄像头或屏幕的音频和视频串流输入,构建实时多模态应用程序。中断和语音活动检测等自然对话模式亦受支持。该 API 支持将多个工具集成在一起,以便通过单个 API 调用完成复杂的用例。在多模态直播视频中查看更多内容,试用网络控制台入门代码 (Python)。

Link to Youtube Video (visible only when JS is disabled)

我们很高兴看到,初创公司在 Gemini 2.0 Flash 应用方面取得了喜人的进展,推出了许多新体验原型设计;例如 tldraw 的视觉游乐场、Viggle 的虚拟角色创建和音频旁白、Toonsutra 基于语境的多语言翻译以及 Rooms 的添加实时音频等。

为了快速开始构建,我们在 Google AI Studio 中发布了三种入门级应用体验,以及用于空间理解、视频分析和 Google 地图探索的开源代码,以便您可以开始使用 Gemini 2.0 Flash 构建应用。


实现 AI 编码辅助的演进

随着 AI 编码辅助功能从简单的代码搜索迅速发展到嵌入开发者工作流程中的 AI 助手,我们想分享一些使用 Gemini 2.0 中编码代理实现的最新进展;此编码代理能够代表您执行任务。

在我们最新的研究中,我们使用 SWE-bench Verified 测试代理在真实软件工程任务中的性能;测试表明,配备代码执行工具的 2.0 Flash 性能可达到 51.8%。2.0 Flash 的尖端推理速度使代理能够对数百个潜在解决方案采样,再根据现有的单元测试和 Gemini 自己的判断来选择最佳解决方案。我们正在将这项研究转化为新的开发者产品。


认识您的 AI 代码代理 Jules

想象一下,您的团队刚刚完成了一次缺陷大扫荡,现在有一长串的错误等着您解决。从今天开始,您可以将 Python 和 Javascript 编码任务分担给 Jules,这是一个使用 Gemini 2.0 的实验性 AI 编码代理。Jules 可以异步工作并与 GitHub 工作流程集成,能够帮您处理错误修复和其他耗时的任务,让您可以专注于真正想要构建的内容。Jules 能够创建全面的多步骤计划来解决问题,高效地修改多个文件,甚至可以准备拉取请求,以便将修复直接返回至 GitHub。

Jules 的发展尚在早期,但根据我们使用 Jules 的内部经验,它可为开发者提供:

  • 更高的生产力。将问题和编码任务分配给 Jules,以实现异步编码效率。

  • 进度跟踪。通过实时更新,随时了解情况并优先处理需要您关注的任务。

  • 充分的掌控权。检查 Jules 在整个过程中制定的计划,并根据您的需求提供反馈或请求调整。轻松查看 Jules 编写的代码,并在适当情况下将其合并到您的项目中。

我们今天将向受信任的特定测试人员提供 Jules,并将在 2025 年初为其他感兴趣的开发者提供该功能。在 labs.google.com/jules 上注册,即可获取有关 Jules 的最新消息。


Colab 的数据科学代理将为您创建笔记本

在今年的 I/O 大会上,我们在 labs.google/code 上推出了实验性的数据科学代理,任何人都可以在几分钟内上传数据集并获得见解,所有这些都基于工作的 Colab 笔记本。我们收到了开发者社区的积极反馈,并目睹了该功能的影响力,这令我们倍感欣喜。例如,劳伦斯伯克利国家实验室研究全球热带湿地甲烷排放项目的科学家估计,原本要花一周分析和处理的内容,现在在数据科学代理的帮助下只需五分钟。

Colab 已经开始使用 Gemini 2.0 集成这些相同的代理功能。只需用简单的语言描述您的分析目标,此代理将为您自动生成笔记本,帮助您提升研究和数据分析能力。这项新功能将在 2025 年上半年向 Colab 用户推出;在此之前,开发者可以加入受信任的测试人员计划,抢先体验。

Colab 的数据科学代理使用 Gemini 2.0 根据自然语言指令创建笔记本

开发者正在构建未来

我们的 Gemini 2.0 模型可以让您更快、更轻松地构建更强大的 AI 应用程序,让您可以专注于为用户提供出色的体验。未来几个月内,我们会将 Gemini 2.0 引入 Android StudioChrome DevToolsFirebase 等平台。开发者可以在 Gemini Code Assist注册以使用 Gemini 2.0 Flash,从而在 Visual Studio Code、IntelliJ、PyCharm 等流行 IDE 中体验增强的编码辅助功能。请访问 ai.google.dev 以开始使用,并关注 Google AI for Developers,了解未来的更新。