Gemini 2.0: mejora tus apps con interacciones multimodales en tiempo real

23 DE DICIEMBRE DE 2024

Ivan Solovyev Product Manager

La comunicación entre humanos es, por naturaleza, multimodal e implica una combinación de palabras habladas, indicaciones visuales y ajustes en tiempo real. Con la API de Multimodal Live para Gemini, logramos este mismo nivel de naturalidad en la interacción entre personas y computadoras. Imagina las conversaciones con la IA que parecen más interactivas, donde puedes usar entradas visuales y recibir soluciones que reconocen el contexto en tiempo real, y combinar a la perfección texto, audio y video. La API de Multimodal Live para Gemini 2.0 permite este tipo de interacción y está disponible en Google AI Studio y la API de Gemini. Esta tecnología te permite crear apps que responden a lo que pasa en el mundo, ya que aprovecha los datos en tiempo real.

Cómo funciona

La API de Multimodal Live es una API con estado que utiliza WebSockets para facilitar la comunicación de baja latencia de servidor a servidor. Esta API admite herramientas como la llamada a función, la ejecución de código, la conexión con la búsqueda y la combinación de múltiples herramientas dentro de una sola solicitud, lo que permite obtener respuestas integrales sin la necesidad de dar varias indicaciones. De esta manera, los desarrolladores pueden crear interacciones de IA más eficientes y complejas.

Funciones clave de la API de Multimodal Live:

Transmisión bidireccional: permite el envío y la recepción simultáneos de datos de texto, audio y video.

Latencia de menos de un segundo: emite el primer token en 600 ms, por lo que alinea los tiempos de reacción con la expectativa humana de una respuesta perfecta.

Conversaciones de voz naturales: admite interacciones de voz similares a las humanas, incluida la capacidad de interrumpir y funciones como la detección de actividad de voz, lo que permite un diálogo más fluido con la IA.

Comprensión de video: proporciona la capacidad de procesar y comprender entradas de video, lo que permite que el modelo combine contextos de audio y video para brindar una respuesta más informada y matizada. Este reconocimiento del contexto aporta otra capa de riqueza a la interacción.

Integración de herramientas: facilita la integración de varias herramientas dentro de una sola llamada a la API, lo que amplía las capacidades de la API y le permite realizar acciones en nombre del usuario para resolver tareas complejas.

Voces orientables: ofrece una selección de cinco voces distintas con un alto nivel de expresividad, capaces de transmitir un amplio espectro de emociones. Así, se ofrece una experiencia de usuario más personalizada y atractiva.

Transmisión multimodal en vivo en acción

La API de Multimodal Live se puede aplicar en una variedad de aplicaciones interactivas en tiempo real. Estos son algunos ejemplos de casos de uso en los que esta API se puede aplicar de manera efectiva:

Asistentes virtuales en tiempo real: imagina un asistente que observa tu pantalla y ofrece asesoramiento personalizado en tiempo real. Por ejemplo, te dice dónde encontrar lo que estás buscando o ejecuta acciones por ti.

Herramientas educativas adaptables: la API permite el desarrollo de apps educativas que pueden adaptarse al ritmo de aprendizaje de un estudiante. Por ejemplo, una app de aprendizaje de idiomas podría ajustar la dificultad de los ejercicios en función de la pronunciación y comprensión en tiempo real de un estudiante.

Para ayudarte a conocer esta nueva funcionalidad y poner en marcha tu propia exploración, creamos una serie de apps de demostración que incluyen capacidades de transmisión en tiempo real:

Una app web de inicio para la transmisión de entradas de micrófono, cámara o pantalla. Una base perfecta para tu creatividad:

Link to Youtube Video (visible only when JS is disabled)

Código completo y una guía de introducción disponible en GitHub: https://github.com/google-gemini/multimodal-live-api-web-console.

Charla con Gemini sobre el clima. Selecciona una ubicación y un personaje impulsado por Gemini te contará todo sobre el clima en ese lugar. Puedes interrumpirlo y hacerle preguntas en cualquier momento.

Link to Youtube Video (visible only when JS is disabled)

Primeros pasos con la API de Multimodal Live

¿Quieres comenzar a explorar? Experimenta con la transmisión en vivo multimodal directamente en Google AI Studio. O, si quieres tener un control total, consigue la documentación detallada y las muestras de código para comenzar a compilar con la API hoy mismo.

También nos asociamos con Daily para proporcionar una integración perfecta a través de su marco de trabajo pipecat, lo que te permitirá agregar sin esfuerzo capacidades en tiempo real a tus aplicaciones apps. Daily.co, creadora del marco de trabajo pipecat, es una plataforma de API de video y audio que permite a los desarrolladores agregar fácilmente transmisión de video y audio en tiempo real a sus sitios web y apps. Consulta la guía de integración de Daily para comenzar a compilar.

Tenemos muchas ganas de ver tus creaciones. Deja tus comentarios y comparte las increíbles apps que crees con la nueva API.

publicado en: