Recentemente, lançamos dois novos modelos em nossa família Gemini: Gemini 2.5 Pro Preview (06/05) e Gemini 2.5 Flash (17/04). Esses modelos marcam um grande salto na compreensão do vídeo. O Gemini 2.5 Pro alcança um desempenho de última geração nos principais comparativos de mercado em compreensão de vídeo, superando modelos recentes como o GPT 4.1 em condições de teste comparáveis (mesmos frames de vídeo e prompt).
Além disso, equipara-se a modelos especializados aperfeiçoados em vários comparativos de mercado desafiadores (por exemplo, legendas densas do YouCook2 e recuperação de momentos QVHighlights). Para aplicativos com limites de custo, o Gemini 2.5 Flash oferece uma alternativa competitiva.
No Gemini 2.5, é a primeira vez que um modelo nativamente multimodal pode usar informações audiovisuais com código e outros formatos de dados. Para ilustrar o poder dos recursos de compreensão de vídeo do Gemini 2.5, mostramos abaixo alguns dos casos de uso que mais nos empolgaram.
O Gemini 2.5 Pro abre novas possibilidades para transformar vídeos em aplicativos interativos. O aplicativo Video To Learning, um aplicativo inicial do Google AI Studio, usa o Gemini 2.5 para tornar o aprendizado com o conteúdo de vídeo mais eficaz e envolvente.
Primeiro, o modelo vê um URL do YouTube com um comando de texto que explica como ele deve analisar o vídeo. O Gemini 2.5 Pro analisa o vídeo e cria uma especificação detalhada para um aplicativo de aprendizado que reforça as principais ideias do vídeo.
A especificação gerada é então enviada de volta ao Gemini 2.5 Pro a fim de gerar o código para o aplicativo, conforme ilustrado no aplicativo do simulador de correção de visão abaixo. O Gemini 2.5 Flash pode alcançar resultados semelhantes, oferecendo um vislumbre de novos casos de uso de vídeo em domínios como educação e criação de conteúdo interativo.
O Gemini 2.5 Pro desbloqueia possibilidades criativas emocionantes, como a capacidade de gerar animações dinâmicas a partir de vídeos com um prompt único. Esse recurso possibilita novos casos de uso, como geração automatizada de conteúdo e criação de resumos de vídeo acessíveis.
Por exemplo, quando recebemos nosso vídeo sobre o Projeto Astra, com o prompt “Criar uma animação em p5.js cobrindo os diferentes pontos de referência vistos neste vídeo.“, o Gemini 2.5 Pro analisou a filmagem e produziu uma animação p5.js correspondente. A animação mostrou os marcos identificados pelo Gemini 2.5 Pro na ordem temporal do vídeo.
O Gemini 2.5 Pro se destaca na identificação de momentos específicos em vídeos usando pistas audiovisuais com precisão maior do que os sistemas de processamento de vídeo anteriores. Por exemplo, neste vídeo de 10 minutos da palestra de abertura do Google Cloud Next '25, ele identifica com precisão 16 segmentos distintos relacionados a apresentações de produtos, a partir de pistas visuais e de áudio.
Com recursos avançados de recuperação de momento, o Gemini 2.5 Pro também é capaz de resolver problemas de raciocínio temporal diferenciados, como contagem. Neste exemplo, o Gemini conta 17 ocorrências distintas em que o personagem principal usa o telefone no vídeo do projeto Astra.
A compreensão de vídeo no Gemini 2.5 Flash e Pro está disponível no Google AI Studio, na API Gemini e no Vertex AI. O suporte para vídeos do YouTube está disponível por meio da API Gemini e do Google AI Studio, permitindo que as pessoas criem aplicativos com acesso a bilhões de vídeos.
Agora, a API Gemini oferece um parâmetro de resolução de mídia “baixa”, permitindo que o Gemini 2.5 Pro processe ~6 horas de vídeo com contexto de 2 milhões de tokens. Isso proporciona uma configuração mais econômica com desempenho competitivo de compreensão de vídeo (por exemplo, 84,7% vs. 85,2% de precisão no VideoMME) para muitos casos de uso de compreensão de vídeo longo.
Estamos inspirados pelos aplicativos de vídeo inovadores que estão surgindo na comunidade e mal podemos esperar para ver o que você vai criar!
Agradecimentos especiais a Aaron Wade por ter criado o app Video To Learning e o exemplo do simulador de correção de visão exibido na postagem do blog.
Agradecemos a Sergi Caelles, Boyu Wang e Saarthak Khanna pelas suas contribuições nas avaliações apresentadas acima, Angeliki Lazaridou por inspirar alguns exemplos de demonstração, e a toda a equipe de compreensão de vídeo da Gemini pelo trabalho que culminou neste lançamento. Por fim, gostaríamos de agradecer aos líderes de compreensão de vídeo Mario Lučić, Shuo-yiin Chang, e Paul Natsev, e a compreensão multimodal geral leva Jean-Baptiste Alayrac.