Hoje, estamos lançando uma versão inicial do Gemini 2.5 Flash em pré-lançamento por meio da API Gemini via Google AI Studio e Vertex AI. Ao expandir a popular base do 2.0 Flash, esta nova versão oferece um importante upgrade dos recursos de raciocínio, sem deixar de priorizar a velocidade e o custo. O Gemini 2.5 Flash é nosso primeiro modelo de raciocínio totalmente híbrido, dando aos desenvolvedores a capacidade de ativar ou desativar o pensamento. O modelo também permite que os desenvolvedores definam orçamentos de pensamento para encontrar um equilíbrio ideal entre qualidade, custo e latência. Mesmo com o pensamento desativado, os desenvolvedores podem manter as altas velocidades do 2.0 Flash e melhorar o desempenho.
Nossos modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar antes de responder. Em vez de gerar imediatamente uma saída, o modelo pode realizar um processo de "pensamento" para entender melhor o prompt, dividir tarefas complexas e planejar uma resposta. Em tarefas complexas que exigem várias etapas de raciocínio (como solucionar problemas de matemática ou analisar perguntas de pesquisa), o processo de pensamento permite que o modelo chegue a respostas mais precisas e abrangentes. Na verdade, o Gemini 2.5 Flash tem um forte desempenho em prompts complexos no LMArena, perdendo apenas para o 2.5 Pro.
O 2.5 Flash continua a liderar como o modelo com a melhor relação entre preço e desempenho.
Sabemos que diferentes casos de uso têm diferentes compensações entre qualidade, custo e latência. Para dar flexibilidade aos desenvolvedores, ativamos a configuração de um orçamento de pensamento, que oferece controle refinado sobre o número máximo de tokens que um modelo pode gerar enquanto pensa. Um orçamento mais alto permite que o modelo raciocine mais para melhorar a qualidade. É importante ressaltar que o orçamento define um limite para o quanto o 2.5 Flash pode pensar, mas o modelo não usa o orçamento total se o prompt não exigir isso.
O modelo é treinado para saber por quanto tempo pensar sobre um determinado prompt e, portanto, decide automaticamente qual será esse tempo com base na complexidade percebida da tarefa.
Se você deseja manter o menor custo e latência e, ao mesmo tempo, melhorar o desempenho em relação ao 2.0 Flash, defina o orçamento de pensamento como 0. Você também pode optar por definir um orçamento de token específico para a fase de pensamento usando um parâmetro na API ou no controle deslizante no Google AI Studio e na Vertex AI. O orçamento pode variar de 0 a 24576 tokens para o 2.5 Flash.
Os prompts a seguir demonstram o nível de raciocínio que pode ser usado no modo padrão do 2.5 Flash.
Exemplo 1: "Obrigado" em espanhol.
Exemplo 2: Quantas províncias tem o Canadá?
Exemplo 1: Você joga dois dados. Qual é a probabilidade de eles somarem 7?
Exemplo 2: Minha academia tem opções de horário para basquete entre as 9h e as 15h às segundas, quartas e sextas e entre as 14h e as 20h às terças e sábados. Se eu trabalhar das 9h às 18h, 5 dias por semana, e quiser jogar 5 horas de basquete nos dias úteis, crie um cronograma que funcione bem para mim.
Exemplo 1: Uma viga em balanço com comprimento L=3m tem uma seção transversal retangular (largura b=0,1m, altura h=0,2m) e é feita de aço (E=200 GPa). Ela é submetida a uma carga uniformemente distribuída w=5 kN/m ao longo de todo o seu comprimento e a uma carga pontual P=10 kN em sua extremidade livre. Calcule a tensão máxima de curvatura (σ_max).
Exemplo 2: Escreva uma função evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]
que calcule os valores das células da planilha.
Cada célula contém:
"3"
)."=A1 + B1 * 2"
usando +
, -
, *
,/
e outras células.Requisitos:
*/
antes de +-
).ValueError("Ciclo detectado em <célula>")
.eval()
. Use apenas bibliotecas incorporadas.O Gemini 2.5 Flash com recursos de pensamento já está disponível em pré-lançamento por meio da API Gemini no Google AI Studio e na Vertex AI e também em um menu suspenso dedicado no app do Gemini. Incentivamos você a experimentar o parâmetro thinking_budget
e explorar como o raciocínio controlável pode ajudar a resolver problemas mais complexos.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Encontre referências de API detalhadas e guias de pensamento em nossos documentos para desenvolvedores ou dê os primeiros passos com os exemplos de código do manual do Gemini.
Continuaremos a melhorar o Gemini 2.5 Flash e teremos mais novidades em breve, antes de sua disponibilidade geral para uso em produção.
*Os preços do modelo são baseados em análise artificial e na documentação da empresa