Comece a criar com o Gemini 2.5 Flash

17 DE ABRIL DE 2025
Tulsee Doshi Director of Product Management Gemini

Hoje, estamos lançando uma versão inicial do Gemini 2.5 Flash em pré-lançamento por meio da API Gemini via Google AI Studio e Vertex AI. Ao expandir a popular base do 2.0 Flash, esta nova versão oferece um importante upgrade dos recursos de raciocínio, sem deixar de priorizar a velocidade e o custo. O Gemini 2.5 Flash é nosso primeiro modelo de raciocínio totalmente híbrido, dando aos desenvolvedores a capacidade de ativar ou desativar o pensamento. O modelo também permite que os desenvolvedores definam orçamentos de pensamento para encontrar um equilíbrio ideal entre qualidade, custo e latência. Mesmo com o pensamento desativado, os desenvolvedores podem manter as altas velocidades do 2.0 Flash e melhorar o desempenho.

Nossos modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar antes de responder. Em vez de gerar imediatamente uma saída, o modelo pode realizar um processo de "pensamento" para entender melhor o prompt, dividir tarefas complexas e planejar uma resposta. Em tarefas complexas que exigem várias etapas de raciocínio (como solucionar problemas de matemática ou analisar perguntas de pesquisa), o processo de pensamento permite que o modelo chegue a respostas mais precisas e abrangentes. Na verdade, o Gemini 2.5 Flash tem um forte desempenho em prompts complexos no LMArena, perdendo apenas para o 2.5 Pro.

Comparison table showing price and performance metrics for LLMs
O 2.5 Flash tem métricas comparáveis às de outros modelos líderes por uma fração do custo e do tamanho.

Nosso modelo de pensamento mais econômico

O 2.5 Flash continua a liderar como o modelo com a melhor relação entre preço e desempenho.

A graph showing Gemini 2.5 Flash price-to-performance comparison
O Gemini 2.5 Flash adiciona mais um modelo à fronteira de Pareto de custo-qualidade do Google.*

Controles refinados para gerenciar o pensamento

Sabemos que diferentes casos de uso têm diferentes compensações entre qualidade, custo e latência. Para dar flexibilidade aos desenvolvedores, ativamos a configuração de um orçamento de pensamento, que oferece controle refinado sobre o número máximo de tokens que um modelo pode gerar enquanto pensa. Um orçamento mais alto permite que o modelo raciocine mais para melhorar a qualidade. É importante ressaltar que o orçamento define um limite para o quanto o 2.5 Flash pode pensar, mas o modelo não usa o orçamento total se o prompt não exigir isso.

Plot graphs show improvements in reasoning quality as thinking budget increases
Melhorias na qualidade do raciocínio à medida que o orçamento de pensamento aumenta.

O modelo é treinado para saber por quanto tempo pensar sobre um determinado prompt e, portanto, decide automaticamente qual será esse tempo com base na complexidade percebida da tarefa.

Se você deseja manter o menor custo e latência e, ao mesmo tempo, melhorar o desempenho em relação ao 2.0 Flash, defina o orçamento de pensamento como 0. Você também pode optar por definir um orçamento de token específico para a fase de pensamento usando um parâmetro na API ou no controle deslizante no Google AI Studio e na Vertex AI. O orçamento pode variar de 0 a 24576 tokens para o 2.5 Flash.

Os prompts a seguir demonstram o nível de raciocínio que pode ser usado no modo padrão do 2.5 Flash.


Prompts que exigem pouco raciocínio:

Exemplo 1: "Obrigado" em espanhol.

Exemplo 2: Quantas províncias tem o Canadá?


Prompts que exigem raciocínio médio:

Exemplo 1: Você joga dois dados. Qual é a probabilidade de eles somarem 7?

Exemplo 2: Minha academia tem opções de horário para basquete entre as 9h e as 15h às segundas, quartas e sextas e entre as 14h e as 20h às terças e sábados. Se eu trabalhar das 9h às 18h, 5 dias por semana, e quiser jogar 5 horas de basquete nos dias úteis, crie um cronograma que funcione bem para mim.


Prompts que exigem muito raciocínio:

Exemplo 1: Uma viga em balanço com comprimento L=3m tem uma seção transversal retangular (largura b=0,1m, altura h=0,2m) e é feita de aço (E=200 GPa). Ela é submetida a uma carga uniformemente distribuída w=5 kN/m ao longo de todo o seu comprimento e a uma carga pontual P=10 kN em sua extremidade livre. Calcule a tensão máxima de curvatura (σ_max).

Exemplo 2: Escreva uma função evaluate_cells(cells: Dict[str, str]) -> Dict[str, float] que calcule os valores das células da planilha.

Cada célula contém:

  • Um número (por exemplo, "3").

  • Ou uma fórmula como "=A1 + B1 * 2" usando +, -, *,/ e outras células.

Requisitos:

  • Resolva as dependências entre células.

  • Considere a precedência dos operadores (*/ antes de +-).

  • Detecte ciclos e aumente ValueError("Ciclo detectado em <célula>").

  • Sem eval(). Use apenas bibliotecas incorporadas.


Comece a criar com o Gemini 2.5 Flash hoje mesmo

O Gemini 2.5 Flash com recursos de pensamento já está disponível em pré-lançamento por meio da API Gemini no Google AI Studio e na Vertex AI e também em um menu suspenso dedicado no app do Gemini. Incentivamos você a experimentar o parâmetro thinking_budget e explorar como o raciocínio controlável pode ajudar a resolver problemas mais complexos.

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
 
print(response.text)

Encontre referências de API detalhadas e guias de pensamento em nossos documentos para desenvolvedores ou dê os primeiros passos com os exemplos de código do manual do Gemini.

Continuaremos a melhorar o Gemini 2.5 Flash e teremos mais novidades em breve, antes de sua disponibilidade geral para uso em produção.


*Os preços do modelo são baseados em análise artificial e na documentação da empresa