Atualizações da API Gemini no Google I/O

23 DE MAIO DE 2025

Shrestha Basu Mallick Product Google DeepMind

Logan Kilpatrick Group Product Manager

Alisa Fortin Product Manager

Ivan Solovyev Product Manager

A API Gemini oferece aos desenvolvedores uma forma otimizada de criar aplicativos inovadores com modelos de IA generativa de ponta. O Google AI Studio simplifica esse processo de teste de todos os recursos da API, permitindo prototipagem e experimentação rápidas com prompts de texto, imagem e até mesmo vídeo. Quando os desenvolvedores querem testar e criar em escala, eles podem aproveitar todos os recursos disponíveis por meio da API Gemini.

Novos modelos disponíveis por meio da API

Pré-lançamento do Gemini 2.5 Flash – Adicionamos uma nova versão de Pré-lançamento do 2.5 Flash (gemini-2.5-flash-preview-05-20) que é melhor do que a versão de Pré-lançamento anterior em questão de raciocínio, código e contexto longo. Esta versão do 2.5 Flash está atualmente no segundo lugar do placar do LMarena, atrás apenas do 2.5 Pro. Também melhoramos a relação custo-benefício do Flash com esta atualização mais recente, reduzindo o número de tokens necessários para o mesmo desempenho, o que resulta em ganhos de eficiência de 22% em nossas avaliações. O objetivo é continuar melhorando com base no seu feedback e disponibilizar tudo isso em breve.

Conversão de texto em voz do Gemini 2.5 Pro e Flash – Também anunciamos versões de Pré-lançamento do 2.5 Pro e Flash para conversão de texto em voz (TTS, na sigla em inglês) que dão suporte à saída de áudio nativa para um ou vários falantes em 24 idiomas. Com esses modelos, você pode controlar a expressão e o estilo da TTS, criando uma saída de áudio rica. Com o suporte a vários falantes, você pode gerar conversas com várias vozes distintas para interações dinâmicas.

Diálogo de áudio nativo do Gemini 2.5 Flash – Em fase de Pré-lançamento, esse modelo está disponível por meio da API Live para a geração de vozes com som natural para conversação, com mais de 30 vozes distintas e mais de 24 idiomas. Também adicionamos o áudio proativo para que o modelo possa diferenciar o falante e as conversas de fundo e saber quando responder. Além disso, o modelo responde adequadamente à expressão emocional e ao tom do usuário. Um modelo de pensamento separado permite consultas mais complexas. Com isso, agora você pode criar agentes de IA conversacional e experiências mais intuitivas e naturais, por exemplo, melhorando as interações em call centers, desenvolvendo personas dinâmicas, criando personagens com vozes exclusivas e muito mais.

Lyria RealTime – A geração de música ao vivo já está disponível na API Gemini e no Google AI Studio para criar um fluxo contínuo de música instrumental usando prompts de texto. Com o Lyria RealTime, usamos WebSockets para estabelecer um canal de comunicação persistente e em tempo real. O modelo produz música continuamente em trechos curtos e fluidos e se adapta com base nas entradas. Imagine adicionar uma trilha sonora responsiva a seu app ou projetar um novo tipo de instrumento musical! Experimente o Lyria RealTime com o app PromptDJ-MIDI no Google AI Studio.

Gemini 2.5 Pro Deep Think – Também estamos testando um modo de raciocínio experimental para o 2.5 Pro. Observamos um desempenho incrível com esses recursos de Deep Thinking para prompts altamente complexos de matemática e codificação. Mal podemos esperar para disponibilizá-lo amplamente para experimentação, em breve.

Gemma 3n – O Gemma 3n é um modelo aberto de IA generativa otimizado para uso em dispositivos do dia a dia, como smartphones, laptops e tablets. Ele é capaz de lidar com entradas de texto, áudio e visão. Esse modelo inclui inovações no processamento eficiente de parâmetros, incluindo armazenamento em cache de parâmetros Per-Layer Embedding (PLE) e uma arquitetura de modelo MatFormer que fornece a flexibilidade para reduzir os requisitos de computação e memória.

Novas funcionalidades na API

Resumos de pensamentos

Para ajudar os desenvolvedores a entender e depurar respostas de modelos, adicionamos resumos de pensamentos para o 2.5 Pro e Flash na API Gemini. Pegamos os pensamentos brutos do modelo e os sintetizamos em um resumo útil, com cabeçalhos, detalhes relevantes e chamadas de ferramentas. A cadeia de pensamentos brutos no Google AI Studio também foi atualizada com os novos resumos de pensamentos.

Orçamentos de pensamento

Lançamos o 2.5 Flash com orçamentos de pensamento para fornecer aos desenvolvedores controle sobre o quanto os modelos pensam, a fim de equilibrar desempenho, latência e custo para os apps que eles estão criando. Estenderemos esse recurso para o 2.5 Pro em breve.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-05-20",
  contents=prompt,
  config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=1024,
      include_thoughts=True
    )
  )
)
 
for part in response.candidates[0].content.parts:
  if not part.text:
    continue
  if part.thought:
    print("Thought summary:")
    print(part.text)
    print()
  else:
    print("Answer:")
    print(part.text)
    print()

Python

Exemplo de código para ativar e recuperar resumos de pensamentos sem streaming, retornando um resumo de pensamentos final com a resposta

Nova ferramenta de contexto de URL

Adicionamos uma nova ferramenta experimental, o contexto de URL, para recuperar mais contexto dos links que você fornece. Ela pode ser usada sozinha ou em conjunto com outras ferramentas, como o Embasamento com a Pesquisa Google. Essa ferramenta é um elemento essencial para os desenvolvedores que desejam criar sua própria versão de agentes de pesquisa com a API Gemini.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
 
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
 
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
 
response = client.models.generate_content(
    model=model_id,
    contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
    config=GenerateContentConfig(
        tools=tools,
        response_modalities=["TEXT"],
    )
)
 
for each in response.candidates[0].content.parts:
    print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)

Python

Exemplo de código para o Embasamento com a Pesquisa Google e o contexto de URL

Ferramenta de uso do computador

Estamos trazendo os recursos de controle de navegador do Project Mariner para a API Gemini por meio de uma nova ferramenta de uso do computador. Para facilitar o uso dessa ferramenta pelos desenvolvedores, estamos ativando a criação de instâncias do Cloud Run configuradas de maneira ideal para executar agentes de controle de navegador com um clique no Google AI Studio. Já estamos fazendo os testes iniciais com empresas como Automation Anywhere, UiPath e Browserbase. O valioso feedback delas será fundamental para refinar os recursos para um lançamento experimental mais amplo para os desenvolvedores no início do segundo semestre deste ano.

Melhorias nas saídas estruturadas

Agora, a API Gemini tem um suporte mais amplo ao JSON Schema, incluindo palavras-chave muito requisitadas, como "$ref" (para referências) e aquelas que permitem a definição de estruturas semelhantes a conjuntos de variáveis (por exemplo, prefixItems).

Melhorias na compreensão de vídeo

Agora, a API Gemini permite que URLs de vídeo do YouTube ou uploads de vídeo sejam adicionados a um prompt, para que os usuários possam resumir, traduzir ou analisar o conteúdo de vídeo. Com essa recente atualização, a API dá suporte à criação de videoclipes, oferecendo flexibilidade para analisar partes específicas de um vídeo. Isso é particularmente benéfico para vídeos com mais de oito horas. Também adicionamos suporte a quadros por segundo (QPS) dinâmicos, permitindo 60 QPS para vídeos como jogos ou esportes, nos quais a velocidade é crítica, e 0,1 QPS para vídeos nos quais a velocidade tem uma prioridade menor. Para ajudar os usuários a economizar em tokens, também introduzimos o suporte a três resoluções de vídeo diferentes: alta (720 p), padrão (480 p) e baixa (360 p).

Chamada de função assíncrona

A arquitetura em cascata na API Live agora oferece suporte a chamadas de função assíncronas, garantindo que as conversas dos usuários permaneçam fluidas e ininterruptas. Isso significa que seu agente Live pode continuar gerando respostas mesmo que esteja ocupado executando funções em segundo plano, simplesmente adicionando o campo de comportamento à definição da função e configurando-a como NON-BLOCKING. Leia mais sobre isso na documentação para desenvolvedores da API Gemini.

API Batch

Também estamos testando uma nova API que permite criar lotes de solicitações facilmente e recuperá-los em um prazo máximo de 24 horas. A API terá metade do preço da API interativa e limites de taxa muito mais altos. Esperamos lançar isso mais amplamente no segundo semestre deste ano.

Comece a criar

Chegamos ao fim do Google I/O deste ano! Com a API Gemini e o Google AI Studio, você pode transformar ideias em realidade, seja ao criar agentes de IA conversacional com áudio natural ou ao desenvolver ferramentas para analisar e gerar código. Como sempre, confira a documentação para desenvolvedores da API Gemini para ver todos os exemplos de código mais recentes e muito mais.

Confira este anúncio e todas as novidades do Google I/O 2025 em io.google.