Modelos Gemini prontos para produção atualizados, redução de preços do 1.5 Pro, aumento dos limites de utilização e muito mais

SET 24, 2024
Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio
Shrestha Basu Mallick Group Product Manager Gemini API

Hoje, estamos lançando dois modelos Gemini prontos para produção atualizados: o Gemini-1.5-Pro-002 e o Gemini-1.5-Flash-002, além de:

  • Redução de > 50% no preço do 1.5 Pro (entrada e saída de prompts com < 128 mil tokens)
  • Limites de utilização 2 vezes mais altos no 1.5 Flash e aproximadamente 3 vezes mais altos no 1.5 Pro
  • Saída 2 vezes mais rápida e latência 3 vezes menor
  • Atualização das configurações de filtro padrão

Esses novos modelos baseiam-se nos lançamentos de modelos experimentais mais recentes e incluem melhorias significativas dos modelos Gemini 1.5 lançados no Google I/O em maio. Os desenvolvedores podem acessar gratuitamente nossos modelos mais recentes via Google AI Studio e API Gemini. Para organizações maiores e clientes do Google Cloud, os modelos também estão disponíveis na Vertex AI.


Melhoria geral da qualidade, com ganhos maiores em matemática, contexto longo e visão

A série Gemini 1.5 inclui modelos projetados para desempenho geral em uma ampla gama de tarefas multimodais, de texto e de código. Por exemplo, os modelos Gemini podem ser usados para sintetizar informações de PDFs com 1.000 páginas, responder a perguntas sobre repositórios contendo mais de 10 mil linhas de código, utilizar vídeos com uma hora de duração e criar conteúdo útil a partir de tudo isso e muito mais.

Com as atualizações mais recentes, o 1.5 Pro e o Flash agora estão melhores, mais rápidos e mais econômicos para criação em produção. Vemos um aumento de aproximadamente 7% no MMLU-Pro, uma versão mais desafiadora do popular comparativo de mercado MMLU. Nos comparativos de mercado MATH e HiddenMath (um conjunto interno de validação com problemas matemáticos de competição), ambos os modelos tiveram uma melhoria considerável de aproximadamente 20%. Para casos de uso de visão e código, ambos os modelos também têm desempenho melhor (variando aproximadamente de 2% a 7%) em avaliações que medem a compreensão visual e a geração de código Python.

A table showcasing benchmark data, demonstrating improved performance for the latest Gemini models, Gemini 1.5 Pro and Gemini 1.5 Flash. The table highlights advancements in various capabilities including reasoning, code, and math

Também melhoramos a utilidade geral das respostas de modelos e mantivemos nossos padrões e políticas de segurança de conteúdo. Isso significa que há menos "chutes" e recusas e mais respostas úteis em muitos temas.

Ambos os modelos agora têm um estilo mais conciso, em resposta ao feedback dos desenvolvedores, para que sejam mais fáceis de usar e também para reduzir os custos. Nos casos de uso como resumo, respostas a perguntas e extração, o comprimento de saída padrão dos modelos atualizados é, aproximadamente, 5% a 20% menor que o dos modelos anteriores. Para produtos baseados em chat nos quais os usuários podem preferir respostas mais longas por padrão, você pode consultar nosso guia de estratégias de design de prompts para saber mais sobre como tornar os modelos mais detalhados e conversacionais.

Para obter mais detalhes sobre a migração para as versões mais recentes do Gemini 1.5 Pro e 1.5 Flash, confira a página de modelos da API Gemini.


Gemini 1.5 Pro

As aplicações úteis e criativas da janela de contexto longo de 2 milhões de tokens e dos recursos multimodais do Gemini 1.5 Pro continuam nos impressionando. Ainda há muitos novos casos de uso a serem criados, da compreensão de vídeos ao processamento de PDFs com 1.000 páginas. Hoje, estamos anunciando que, a partir de 1º de outubro de 2024, haverá reduções de 64% no preço dos tokens de entrada, de 52% no preço dos tokens de saída e de 64% no preço dos tokens incrementais em cache para o modelo mais robusto da série 1.5, o Gemini 1.5 Pro, em prompts com menos de 128 mil tokens. Em conjunto com o armazenamento de contexto em cache, isso continua reduzindo o custo de criação com o Gemini.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Aumento dos limites de utilização

Para simplificar ainda mais a criação com o Gemini para os desenvolvedores, estamos aumentando os limites de utilização do nível pago do 1.5 Flash de 1.000 para 2.000 RPM e do 1.5 Pro de 360 para 1.000 RPM. Nas próximas semanas, esperamos continuar aumentando os limites de utilização da API Gemini para que os desenvolvedores possam criar mais com o Gemini.


Saída 2 vezes mais rápida e latência 3 vezes menor

Nas últimas semanas, em conjunto com as principais melhorias nos modelos mais recentes, reduzimos a latência com o 1.5 Flash e aumentamos significativamente os tokens de saída por segundo, possibilitando novos casos de uso com nossos modelos mais avançados.

Side-by-side graphs charting the latency of Google's Gemini model over time, showing improvements.

Atualização das configurações de filtro

Desde o primeiro lançamento do Gemini, em dezembro de 2023, a criação de um modelo seguro e confiável tem sido o foco principal. Com as versões mais recentes do Gemini (modelos -002), fizemos melhorias na capacidade do modelo de seguir as instruções do usuário e equilibrar a segurança. Continuaremos oferecendo um pacote de filtros de segurança que os desenvolvedores podem aplicar aos modelos do Google. Para os modelos lançados hoje, os filtros não serão aplicados por padrão, para que os desenvolvedores possam determinar a configuração mais adequada a cada caso de uso.


Atualizações experimentais do Gemini 1.5 Flash-8B

Estamos lançando uma versão mais aprimorada do modelo Gemini 1.5 que anunciamos em agosto, chamada "Gemini-1.5-Flash-8B-Exp-0924". Ela inclui aumentos significativos de desempenho nos casos de uso multimodais e de texto e já está disponível via Google AI Studio e API Gemini.

Tem sido incrível receber feedbacks extremamente positivos dos desenvolvedores sobre o 1.5 Flash-8B. Continuaremos ajustando nosso pipeline de lançamentos experimentais para produção com base no feedback dos desenvolvedores.


Estamos muito empolgados com essas atualizações e mal podemos esperar para ver o que você criará com os novos modelos Gemini! E, em breve, os usuários do Gemini Advanced poderão acessar uma versão do Gemini 1.5 Pro-002 otimizada para chat.