La API Live brinda a los desarrolladores las herramientas esenciales para crear aplicaciones y agentes inteligentes y capaces de procesar la transmisión de audio, video y texto con una latencia increíblemente baja. Esta velocidad es primordial para crear experiencias verdaderamente interactivas, y permite crear soluciones de atención al cliente, plataformas educativas y servicios de supervisión en tiempo real.
Link to Youtube Video (visible only when JS is disabled)
Hace muy poco, anunciamos el lanzamiento de la versión preliminar de la API Live para los modelos de Gemini, un importante paso adelante para que los desarrolladores puedan crear aplicaciones sólidas y escalables en tiempo real. Prueba las últimas funciones ahora con la API de Gemini en Google AI Studio y en Vertex AI.
Desde nuestro lanzamiento experimental en diciembre, escuchamos atentamente los comentarios de los usuarios e incorporamos nuevas funciones y capacidades para que la API Live esté lista para producción. Encuentra todos los detalles en la documentación de la API Live:
session_resumption
) para volver a conectarse y reanudar donde te detuviste.GoAway
que indica cuándo una conexión está a punto de cerrarse, lo que permite un manejo correcto antes de la terminación.activityStart
, activityEnd
) para el control manual de turnos.speechConfig
.usageMetadata
de los mensajes del servidor, desglosados por modalidad y fases de instrucción/respuesta.Para que te inspires y comiences tu próximo proyecto, presentamos el trabajo de desarrolladores que ya están aprovechando el poder de la API Live en sus aplicaciones:
Daily integra la compatibilidad con la API Live en los SDK de código abierto de Pipecat para Web, Android, iOS y C++.
Gracias al poder de la API Live, Pipecat Daily creó un juego de adivinación de palabras basado en voz: Word Wrangler. Pon a prueba tus habilidades de descripción en esta versión impulsada por la IA de los juegos de palabras clásicos y prueba compilar uno por tu cuenta.
LiveKit integra la compatibilidad con la API Live en los agentes de LiveKit. Este marco para compilar agentes de IA de voz proporciona una plataforma de código abierto para crear aplicaciones agénticas del lado del servidor.
".Hasta la aparición de la API Live, ningún otro LLM ofrecía una interfaz de desarrollador que pudiera procesar directamente la transmisión de video".
– Russell d'Sa, director general
Echa un vistazo a la demostración, en la que crearon un copiloto de IA que puede navegar por Internet junto a ti mientras te cuenta lo que opina sobre lo que puede ver en tiempo real.
Hey Bubba es una aplicación de IA de voz agéntica, desarrollada específicamente para conductores de camiones. Utiliza la API Live para permitir una comunicación de voz fluida y multilingüe, de modo que los conductores puedan operar con las manos libres. Entre las funcionalidades clave, se incluyen las siguientes:
La API Live impulsa tanto la interacción del conductor (aprovechando las llamadas a función y el almacenamiento en caché de contexto para consultas, como futuras recogidas) como la capacidad de Bubba para interactuar durante las llamadas telefónicas de negociación y reservaciones. Todo esto convierte a Hey Bubba en una herramienta integral de IA para el sector laboral más amplio y diverso de los EE. UU.
Link to Youtube Video (visible only when JS is disabled)
La API Live está lista para impulsar tu próxima aplicación de voz en tiempo real. Para comenzar:
¡Suerte en el proceso de compilación!