人与人之间的交流理所当然有多种模式,涉及口语、视觉提示和实时调整的混合。借助 Gemini 的多模态实时 API,我们在人机交互方面实现了同样的自然程度。想象一下更具互动性的 AI 对话,您可以使用视觉输入并实时接收情境感知解决方案,无缝融合文本、音频和视频。Gemini 2.0 的多模态实时 API 支持此类交互,可在 Google AI Studio 和 Gemini API 中使用。通过这项技术,您可以利用实时数据构建响应世界变化的应用程序。
作为一种有状态的 API,多模态实时 API 会利用 WebSocket 实现低延迟的服务器到服务器通信。此 API 支持函数调用、代码执行、搜索校验等工具,同时能在单个请求中运用多个工具的组合,无需多次提示即可实现全面的响应。这使开发者能够创建更高效、更复杂的 AI 互动。
多模态实时 API 的主要功能包括:
多模态实时 API 支持各种实时交互式应用程序。以下是可以有效应用此 API 的一些用例示例:
为了帮助您探索这一新功能并开始您自己的探索,我们创建了一系列展示实时流式传输功能的演示版应用程序:
用于流式传输麦克风、摄像头或屏幕输入的入门级 Web 应用程序。为您的创意奠定完美基础:
Link to Youtube Video (visible only when JS is disabled)
如要了解完整代码和入门指南,请前往 Github:https://github.com/google-gemini/multimodal-live-api-web-console。
与 Gemini 聊聊天气。选择一个地点,让采用 Gemini 技术的人物说明该地点的天气。您可以随时打断并提出跟进问题。
Link to Youtube Video (visible only when JS is disabled)