Gemini 2.0: Incremente seus apps com interações multimodais em tempo real

23 DE DEZEMBRO DE 2024

Ivan Solovyev Product Manager

A comunicação entre seres humanos é naturalmente multimodal, envolvendo uma combinação de palavras faladas, dicas visuais e ajustes em tempo real. Com a API Multimodal Live para Gemini, alcançamos esse mesmo nível de naturalidade na interação humano-computador. Imagine conversas de IA que parecem mais interativas, nas quais você pode usar entradas visuais e receber soluções sensíveis ao contexto em tempo real, combinando texto, áudio e vídeo com perfeição. A API Multimodal Live para Gemini 2.0 permite esse tipo de interação e está disponível no Google AI Studio e na API Gemini. Essa tecnologia permite que você crie aplicativos que respondam ao mundo à medida que ele acontece, aproveitando dados em tempo real.

Como funciona

A API Multimodal Live é uma API com estado que utiliza WebSockets para facilitar a comunicação de baixa latência entre servidores. Essa API dá suporte a ferramentas como chamada de função, execução de código, embasamento de pesquisa e a combinação de várias ferramentas em uma única solicitação, permitindo respostas abrangentes sem a necessidade de vários prompts. Isso permite que os desenvolvedores criem interações de IA mais eficientes e complexas.

Os principais recursos da API Multimodal Live incluem:

Streaming bidirecional: permite o envio e recebimento simultâneos de dados de texto, áudio e vídeo.

Latência inferior a segundos: gera o primeiro token em 600 milissegundos, alinhando os tempos de reação à expectativa humana de uma resposta direta.

Conversas de voz naturais: dá suporte a interações de voz semelhantes às humanas, incluindo a capacidade de interrupção e recursos como detecção de atividade de voz, permitindo um diálogo mais fluido com a IA.

Compreensão de vídeo: fornece a capacidade de processar e entender entradas de vídeo, permitindo que o modelo combine contextos de áudio e vídeo para uma resposta mais informada e diferenciada. Essa consciência contextual traz outra camada de riqueza para a interação.

Integração de ferramentas: facilita a integração de várias ferramentas em uma única chamada de API, estendendo os recursos da API e permitindo que ela execute ações em nome do usuário para resolver tarefas complexas.

Vozes controláveis: oferece uma seleção de cinco vozes distintas com alto nível de expressão, capazes de transmitir um amplo espectro de emoções. Isso permite uma experiência de usuário mais personalizada e envolvente.

Transmissão ao vivo multimodal em ação

A API Multimodal Live permite uma variedade de aplicativos interativos em tempo real. Aqui estão alguns exemplos de casos de uso em que essa API pode ser aplicada com eficácia:

Assistentes virtuais em tempo real: imagine um assistente que observa sua tela e oferece conselhos personalizados em tempo real, dizendo onde encontrar o que você está procurando ou executando ações em seu nome.

Ferramentas educacionais adaptativas: a API dá suporte ao desenvolvimento de aplicativos educacionais que podem se adaptar ao ritmo de aprendizagem de um aluno, por exemplo, um aplicativo de aprendizado de idiomas pode ajustar a dificuldade dos exercícios com base na pronúncia e compreensão em tempo real de um aluno.

Para ajudar você a explorar essa nova funcionalidade e iniciar sua própria análise detalhada, criamos vários aplicativos de demonstração que demonstram os recursos de streaming em tempo real:

Um aplicativo da Web inicial para streaming de entrada de microfone, câmera ou tela. Uma base perfeita para a sua criatividade:

Link to Youtube Video (visible only when JS is disabled)

O código completo e um guia de primeiros passos estão disponíveis no Github: https://github.com/google-gemini/multimodal-live-api-web-console.

Bata um papo com o Gemini sobre o clima. Selecione um local e veja um personagem habilitado pelo Gemini falando sobre o clima nesse local. Você pode interromper e fazer perguntas de acompanhamento a qualquer momento.

Link to Youtube Video (visible only when JS is disabled)

Primeiros passos com a API Multimodal Live

Pronto para se aprofundar? Experimente a transmissão ao vivo multimodal diretamente no Google AI Studio para ter uma experiência prática. Ou, para controle total, veja a documentação detalhada e exemplos de código para começar a criar com a API ainda hoje.

Também fizemos uma parceria com a Daily para fornecer uma integração perfeita por meio da estrutura pipecat, permitindo que você adicione recursos em tempo real a seus apps com facilidade. A Daily.co, criadora do framework pipecat, é uma plataforma de API de vídeo e áudio que facilita para os desenvolvedores a adição de streaming de vídeo e áudio em tempo real aos sites e apps da empresa. Confira o guia de integração da Daily para começar a criar.

Mal podemos esperar para ver as suas criações. Compartilhe seu feedback e os incríveis aplicativos que você criar com a nova API!

postado em: