Gemini 2.0:通过实时多模态互动升级您的应用

十二月 23, 2024
Ivan Solovyev Product Manager

人与人之间的交流理所当然有多种模式,涉及口语、视觉提示和实时调整的混合。借助 Gemini 的多模态实时 API,我们在人机交互方面实现了同样的自然程度。想象一下更具互动性的 AI 对话,您可以使用视觉输入并实时接收情境感知解决方案,无缝融合文本、音频和视频。Gemini 2.0 的多模态实时 API 支持此类交互,可在 Google AI Studio 和 Gemini API 中使用。通过这项技术,您可以利用实时数据构建响应世界变化的应用程序。


工作原理

作为一种有状态的 API,多模态实时 API 会利用 WebSocket 实现低延迟的服务器到服务器通信。此 API 支持函数调用、代码执行、搜索校验等工具,同时能在单个请求中运用多个工具的组合,无需多次提示即可实现全面的响应。这使开发者能够创建更高效、更复杂的 AI 互动。

多模态实时 API 的主要功能包括:

  • 双向流式传输:允许同时收发文本、音频和视频数据。

  • 亚秒级延迟:在 600 毫秒内输出第一个令牌,使反应时间与人类对无缝响应的期望相一致。

  • 自然语音对话:支持类似人类的语音交互,包括打断能力和语音活动检测等功能,实现与 AI 的更流畅的对话。

  • 视频理解:提供处理和理解视频输入的能力,使模型能够结合音频和视频上下文,从而做出更明智、更细致的响应。这种情境感知为交互带来了另一层丰富性。

  • 工具集成:协助在单个 API 调用中集成多个工具,扩展 API 的功能并允许 API 代表用户执行操作来解决复杂的任务。

  • 可操控的声音:提供五种不同的声音选择,具有高度的表现力,能够传达各种情绪。这可以提供更加个性化和引人入胜的用户体验。


多模态直播视频的实际应用

多模态实时 API 支持各种实时交互式应用程序。以下是可以有效应用此 API 的一些用例示例:

  • 实时虚拟助手:设想一下,一位助手会观察您的屏幕并实时提供定制的建议,告诉您在哪里可以找到您要寻找的内容,执行操作或代表您执行操作。

  • 自适应教育工具:该 API 支持开发能够适应学生学习进度的教育应用程序,例如,语言学习应用程序可以根据学生的实时发音和理解程度调整练习的难度。

为了帮助您探索这一新功能并开始您自己的探索,我们创建了一系列展示实时流式传输功能的演示版应用程序:

用于流式传输麦克风、摄像头或屏幕输入的入门级 Web 应用程序。为您的创意奠定完美基础:

Link to Youtube Video (visible only when JS is disabled)

如要了解完整代码和入门指南,请前往 Github:https://github.com/google-gemini/multimodal-live-api-web-console


与 Gemini 聊聊天气。选择一个地点,让采用 Gemini 技术的人物说明该地点的天气。您可以随时打断并提出跟进问题。

Link to Youtube Video (visible only when JS is disabled)

多模态实时 API 入门指南

准备好开始了吗?请直接在 Google AI Studio 中试用多模态直播流式传输,亲身进行体验。或者,如要获得完全控制权,请获取详细的文档代码示例,立即开始使用 API 进行构建。

我们还与 Daily 合作,通过其 pipecat 框架提供无缝集成,让您能够轻松为应用添加实时功能。作为 pipecat 框架的创建者,Daily.co是一个视频和音频 API 平台,可让开发者轻松将实时视频和音频流式传输功能添加到他们的网站和应用。查看 Daily 的 集成指南,开始构建。

我们很高兴看到您的创作,请多多分享您的反馈和使用新 API 构建的非凡应用程序!