Novo suporte dos modelos Gemini 2.5 ao armazenamento em cache implícito

8 DE MAIO DE 2025
Logan Kilpatrick Group Product Manager

Em maio de 2024, fomos pioneiros no armazenamento de contexto em cache, ajudando os desenvolvedores a economizar 75% em contexto repetitivo transmitido para nossos modelos com o armazenamento em cache explícito. Hoje, estamos lançando um recurso muito requisitado na API Gemini: o armazenamento em cache implícito.


Armazenamento em cache implícito com a API Gemini

O armazenamento em cache implícito transmite diretamente as reduções de custos de cache para os desenvolvedores sem a necessidade de criar um cache explícito. Agora, quando você enviar uma solicitação a um dos modelos Gemini 2.5, se a solicitação compartilhar um prefixo em comum com uma das solicitações anteriores, ela se qualificará para uma ocorrência em cache. Transmitiremos dinamicamente a redução de custos de volta para você, fornecendo o mesmo desconto de 75% em tokens.

Para aumentar a chance de que sua solicitação contenha uma ocorrência em cache, você deve manter o conteúdo igual no início da solicitação e adicionar, ao final do prompt, coisas como a pergunta de um usuário ou outro contexto adicional que possa mudar de solicitação para solicitação. Você pode ler mais práticas recomendadas sobre o uso do armazenamento em cache implícito nos documentos da API Gemini.

Para que mais solicitações se qualifiquem para ocorrências em cache, reduzimos o tamanho mínimo de solicitação para 1024 tokens no 2.5 Flash e 2048 tokens no 2.5 Pro.


Como funcionam os descontos em tokens com o Gemini 2.5

Nos casos em que você quiser garantir a redução de custos, ainda será possível usar nossa API de armazenamento em cache explícito, que dá suporte a nossos modelos Gemini 2.5 e 2.0. Se você estiver usando os modelos Gemini 2.5 agora, começará a ver cached_content_token_count nos metadados de uso, indicando quantos tokens da solicitação foram armazenados em cache e, portanto, serão cobrados pelo preço mais baixo.


Primeiros passos

Estamos motivados a continuar expandindo a fronteira de Pareto com ainda mais eficiência de custos e queremos saber o seu feedback sobre nossas atualizações de armazenamento em cache!