La comunicación entre humanos es, por naturaleza, multimodal e implica una combinación de palabras habladas, indicaciones visuales y ajustes en tiempo real. Con la API de Multimodal Live para Gemini, logramos este mismo nivel de naturalidad en la interacción entre personas y computadoras. Imagina las conversaciones con la IA que parecen más interactivas, donde puedes usar entradas visuales y recibir soluciones que reconocen el contexto en tiempo real, y combinar a la perfección texto, audio y video. La API de Multimodal Live para Gemini 2.0 permite este tipo de interacción y está disponible en Google AI Studio y la API de Gemini. Esta tecnología te permite crear apps que responden a lo que pasa en el mundo, ya que aprovecha los datos en tiempo real.
La API de Multimodal Live es una API con estado que utiliza WebSockets para facilitar la comunicación de baja latencia de servidor a servidor. Esta API admite herramientas como la llamada a función, la ejecución de código, la conexión con la búsqueda y la combinación de múltiples herramientas dentro de una sola solicitud, lo que permite obtener respuestas integrales sin la necesidad de dar varias indicaciones. De esta manera, los desarrolladores pueden crear interacciones de IA más eficientes y complejas.
Funciones clave de la API de Multimodal Live:
La API de Multimodal Live se puede aplicar en una variedad de aplicaciones interactivas en tiempo real. Estos son algunos ejemplos de casos de uso en los que esta API se puede aplicar de manera efectiva:
Para ayudarte a conocer esta nueva funcionalidad y poner en marcha tu propia exploración, creamos una serie de apps de demostración que incluyen capacidades de transmisión en tiempo real:
Una app web de inicio para la transmisión de entradas de micrófono, cámara o pantalla. Una base perfecta para tu creatividad:
Link to Youtube Video (visible only when JS is disabled)
Código completo y una guía de introducción disponible en GitHub: https://github.com/google-gemini/multimodal-live-api-web-console.
Charla con Gemini sobre el clima. Selecciona una ubicación y un personaje impulsado por Gemini te contará todo sobre el clima en ese lugar. Puedes interrumpirlo y hacerle preguntas en cualquier momento.
Link to Youtube Video (visible only when JS is disabled)
¿Quieres comenzar a explorar? Experimenta con la transmisión en vivo multimodal directamente en Google AI Studio. O, si quieres tener un control total, consigue la documentación detallada y las muestras de código para comenzar a compilar con la API hoy mismo.
También nos asociamos con Daily para proporcionar una integración perfecta a través de su marco de trabajo pipecat, lo que te permitirá agregar sin esfuerzo capacidades en tiempo real a tus aplicaciones apps. Daily.co, creadora del marco de trabajo pipecat, es una plataforma de API de video y audio que permite a los desarrolladores agregar fácilmente transmisión de video y audio en tiempo real a sus sitios web y apps. Consulta la guía de integración de Daily para comenzar a compilar.
Tenemos muchas ganas de ver tus creaciones. Deja tus comentarios y comparte las increíbles apps que crees con la nueva API.