Logra la interacción en tiempo real: compila con la API Live

23 DE ABRIL DE 2025
Ivan Solovyev Product Manager
Shrestha Basu Mallick Group Product Manager Gemini API

La API Live brinda a los desarrolladores las herramientas esenciales para crear aplicaciones y agentes inteligentes y capaces de procesar la transmisión de audio, video y texto con una latencia increíblemente baja. Esta velocidad es primordial para crear experiencias verdaderamente interactivas, y permite crear soluciones de atención al cliente, plataformas educativas y servicios de supervisión en tiempo real.

Link to Youtube Video (visible only when JS is disabled)

Hace muy poco, anunciamos el lanzamiento de la versión preliminar de la API Live para los modelos de Gemini, un importante paso adelante para que los desarrolladores puedan crear aplicaciones sólidas y escalables en tiempo real. Prueba las últimas funciones ahora con la API de Gemini en Google AI Studio y en Vertex AI.


Novedades de la API Live

Desde nuestro lanzamiento experimental en diciembre, escuchamos atentamente los comentarios de los usuarios e incorporamos nuevas funciones y capacidades para que la API Live esté lista para producción. Encuentra todos los detalles en la documentación de la API Live:

Administración de sesiones mejorada y más confiable

  • Sesiones más largas gracias a la compresión de contexto: permite interacciones extendidas sin tener en cuenta los límites de tiempo anteriores. Configura la compresión de la ventana de contexto con un mecanismo de ventana deslizante para administrar automáticamente la extensión del contexto, a fin de evitar terminaciones abruptas debido a los límites.

  • Reanudación de la sesión: mantén las sesiones activas cuando haya interrupciones temporales en la red. La API Live ahora admite el almacenamiento de estado de sesión del lado del servidor (hasta 24 horas) y procesa identificadores (session_resumption) para volver a conectarse y reanudar donde te detuviste.

  • Notificación de desconexión correcta: recibe un mensaje del servidor GoAway que indica cuándo una conexión está a punto de cerrarse, lo que permite un manejo correcto antes de la terminación.

  • Cobertura de turno configurable: elige si deseas que la API Live procese toda la entrada de audio y video de forma continua o solo la captura cuando se detecta al usuario final hablando.

  • Resolución de contenido multimedia configurable: optimiza la calidad o el uso de tokens seleccionando la resolución para la entrada de contenido multimedia.


Más control sobre la dinámica de interacción

  • Detección de actividad de voz configurable (VAD): elige los niveles de sensibilidad o desactiva el VAD automático por completo y utiliza nuevos eventos de cliente (activityStart, activityEnd) para el control manual de turnos.

  • Procesamiento de interrupciones configurable: decide si la entrada del usuario debe interrumpir la respuesta del modelo.

  • Configuración flexible de la sesión: modifica las instrucciones del sistema y otras configuraciones en cualquier momento durante la sesión.


Salida y funciones más ricas

  • Opciones de voz e idioma ampliadas: elige entre dos nuevas voces y 30 nuevos idiomas para la salida de audio. El idioma de salida ahora se puede configurar dentro de speechConfig.

  • Transmisión de texto: recibe respuestas de texto de forma incremental a medida que se generan, con lo que el usuario obtendrá una visualización más rápida.

  • Informes de uso de tokens: obtén estadísticas sobre el uso con recuentos detallados de tokens proporcionados en el campo usageMetadata de los mensajes del servidor, desglosados por modalidad y fases de instrucción/respuesta.


Mira la API Live en acción: aplicaciones del mundo real

Para que te inspires y comiences tu próximo proyecto, presentamos el trabajo de desarrolladores que ya están aprovechando el poder de la API Live en sus aplicaciones:


Daily.co

Daily integra la compatibilidad con la API Live en los SDK de código abierto de Pipecat para Web, Android, iOS y C++.

Gracias al poder de la API Live, Pipecat Daily creó un juego de adivinación de palabras basado en voz: Word Wrangler. Pon a prueba tus habilidades de descripción en esta versión impulsada por la IA de los juegos de palabras clásicos y prueba compilar uno por tu cuenta.

Live API - Word Wrangler

LiveKit

LiveKit integra la compatibilidad con la API Live en los agentes de LiveKit. Este marco para compilar agentes de IA de voz proporciona una plataforma de código abierto para crear aplicaciones agénticas del lado del servidor.

".Hasta la aparición de la API Live, ningún otro LLM ofrecía una interfaz de desarrollador que pudiera procesar directamente la transmisión de video".
Russell d'Sa, director general

Echa un vistazo a la demostración, en la que crearon un copiloto de IA que puede navegar por Internet junto a ti mientras te cuenta lo que opina sobre lo que puede ver en tiempo real.


Bubba.ai

Hey Bubba es una aplicación de IA de voz agéntica, desarrollada específicamente para conductores de camiones. Utiliza la API Live para permitir una comunicación de voz fluida y multilingüe, de modo que los conductores puedan operar con las manos libres. Entre las funcionalidades clave, se incluyen las siguientes:

  • Búsqueda de cargas y proporción de detalles.

  • Inicio de llamadas a corredores/expedidores.

  • Negociación de tarifas de flete en función de los datos del mercado.

  • Reservación de cargas y verificación de confirmaciones de tarifas.

  • Búsqueda y reservación de estacionamiento para camiones, entre lo que se incluye llamadas a los hoteles para confirmar la disponibilidad.

  • Programación de citas con expedidores y receptores.

La API Live impulsa tanto la interacción del conductor (aprovechando las llamadas a función y el almacenamiento en caché de contexto para consultas, como futuras recogidas) como la capacidad de Bubba para interactuar durante las llamadas telefónicas de negociación y reservaciones. Todo esto convierte a Hey Bubba en una herramienta integral de IA para el sector laboral más amplio y diverso de los EE. UU.

Link to Youtube Video (visible only when JS is disabled)

Comienza a trabajar en compilaciones hoy

La API Live está lista para impulsar tu próxima aplicación de voz en tiempo real. Para comenzar:

¡Suerte en el proceso de compilación!