Hoje, temos o prazer de compartilhar novidades sobre nossa família de modelos Gemini 2.5:
Os modelos Gemini 2.5 são pensantes, capazes de raciocinar antes de responder, resultando em melhor desempenho e acurácia. Cada modelo tem controle sobre o orçamento de pensamento, dando aos desenvolvedores a capacidade de escolher quando e o quanto o modelo “pensa” antes de gerar uma resposta.
Hoje, apresentamos o 2.5 Flash-Lite em pré-lançamento com a menor latência e custo da família de modelos 2.5. Ele foi criado como um upgrade econômico dos nossos modelos anteriores 1.5 e 2.0 Flash. Também oferece melhor desempenho na maioria das avaliações e menor tempo para o primeiro token, além de alcançar uma decodificação de tokens por segundo mais alta. Esse modelo é ótimo para tarefas de alto rendimento, como classificação ou resumo em escala.
O Gemini 2.5 Flash-Lite é um modelo de raciocínio, o que permite o controle dinâmico do orçamento de pensamento com um parâmetro de API. Como o Flash-Lite é otimizado para custo e velocidade, o “pensamento” está desativado por padrão, ao contrário de nossos outros modelos. O 2.5 O Flash-Lite também é compatível com todas as nossas ferramentas nativas, como o Embasamento com a Pesquisa Google, a Execução de Código e o Contexto de URL, além da chamada de função.
Ao longo do último ano, nossas equipes de pesquisa continuaram expandindo a fronteira de Pareto com nossa série de modelos Flash. Quando o 2.5 Flash foi anunciado inicialmente, ainda não tínhamos finalizado os recursos do 2.5 Flash-Lite. Também lançamos com um “preço pensante” e um “não pensante”, o que levou à confusão dos desenvolvedores.
Com o lançamento da versão estável (que é o mesmo do pré-lançamento de 20/05 no Google I/O) e o incrível desempenho do Gemini 2.5 Flash, estamos atualizando seus preços:
Embora nos esforcemos para manter preços consistentes entre o pré-lançamento e as versões estáveis para minimizar interrupções, este é um ajuste específico que reflete o valor excepcional do Flash, ainda oferecendo o melhor custo por inteligência disponível.
Com o Gemini 2.5 Flash-Lite, agora temos uma opção de custo ainda menor (com ou sem pensamento) para casos de uso sensíveis a custos e latência que exigem menos inteligência de modelo.
Se você estiver usando o Gemini 2.5 Flash Preview 04-17, o preço de visualização existente permanecerá em vigor até a descontinuação planejada em 15 de julho de 2025, quando o ponto de extremidade do modelo será desativado. Você pode fazer a transição para o modelo disponível "gemini-2.5-flash" ou mudar para 2.5 Flash-Lite Preview como uma opção de custo mais baixo.
O crescimento e a demanda pelo Gemini 2.5 Pro continuam a ser os mais altos de todos os nossos modelos. Para permitir que mais clientes usem esse modelo em produção, estamos tornando a versão 06-05 do modelo estável, com o mesmo preço de fronteira de Pareto de antes.
Esperamos que os casos em que você precisa da mais alta inteligência e da maioria dos recursos sejam onde você verá o Pro brilhar, como tarefas de programação e agênticas. O Gemini 2.5 Pro está no centro de muitas das ferramentas preferidas dos desenvolvedores.
Se você estiver usando o 2.5 Pro Preview 05-06, o modelo permanecerá disponível até 19 de junho de 2025 e, depois disso, será desativado. Se você estiver usando o 2.5 Pro Preview 06-05, basta atualizar a string do modelo para "gemini-2.5-pro".
Estamos ansiosos para ver ainda mais domínios se beneficiarem da inteligência do 2.5 Pro e compartilhar mais sobre o escalonamento além do Pro em um futuro próximo.