A comunicação entre seres humanos é naturalmente multimodal, envolvendo uma combinação de palavras faladas, dicas visuais e ajustes em tempo real. Com a API Multimodal Live para Gemini, alcançamos esse mesmo nível de naturalidade na interação humano-computador. Imagine conversas de IA que parecem mais interativas, nas quais você pode usar entradas visuais e receber soluções sensíveis ao contexto em tempo real, combinando texto, áudio e vídeo com perfeição. A API Multimodal Live para Gemini 2.0 permite esse tipo de interação e está disponível no Google AI Studio e na API Gemini. Essa tecnologia permite que você crie aplicativos que respondam ao mundo à medida que ele acontece, aproveitando dados em tempo real.
A API Multimodal Live é uma API com estado que utiliza WebSockets para facilitar a comunicação de baixa latência entre servidores. Essa API dá suporte a ferramentas como chamada de função, execução de código, embasamento de pesquisa e a combinação de várias ferramentas em uma única solicitação, permitindo respostas abrangentes sem a necessidade de vários prompts. Isso permite que os desenvolvedores criem interações de IA mais eficientes e complexas.
Os principais recursos da API Multimodal Live incluem:
A API Multimodal Live permite uma variedade de aplicativos interativos em tempo real. Aqui estão alguns exemplos de casos de uso em que essa API pode ser aplicada com eficácia:
Para ajudar você a explorar essa nova funcionalidade e iniciar sua própria análise detalhada, criamos vários aplicativos de demonstração que demonstram os recursos de streaming em tempo real:
Um aplicativo da Web inicial para streaming de entrada de microfone, câmera ou tela. Uma base perfeita para a sua criatividade:
Link to Youtube Video (visible only when JS is disabled)
O código completo e um guia de primeiros passos estão disponíveis no Github: https://github.com/google-gemini/multimodal-live-api-web-console.
Bata um papo com o Gemini sobre o clima. Selecione um local e veja um personagem habilitado pelo Gemini falando sobre o clima nesse local. Você pode interromper e fazer perguntas de acompanhamento a qualquer momento.
Link to Youtube Video (visible only when JS is disabled)
Pronto para se aprofundar? Experimente a transmissão ao vivo multimodal diretamente no Google AI Studio para ter uma experiência prática. Ou, para controle total, veja a documentação detalhada e exemplos de código para começar a criar com a API ainda hoje.
Também fizemos uma parceria com a Daily para fornecer uma integração perfeita por meio da estrutura pipecat, permitindo que você adicione recursos em tempo real a seus apps com facilidade. A Daily.co, criadora do framework pipecat, é uma plataforma de API de vídeo e áudio que facilita para os desenvolvedores a adição de streaming de vídeo e áudio em tempo real aos sites e apps da empresa. Confira o guia de integração da Daily para começar a criar.
Mal podemos esperar para ver as suas criações. Compartilhe seu feedback e os incríveis aplicativos que você criar com a nova API!