저희는 2024년 5월에 컨텍스트 캐싱을 처음 도입해 개발자가 모델에 반복적으로 전달된 컨텍스트의 75%를 명시적 캐싱 방식으로 절감할 수 있도록 지원했습니다. 오늘은 Gemini API에서 많은 요청을 받은 기능인 암시적 캐싱을 선보입니다.
암시적 캐싱은 명시적 캐시를 생성할 필요 없이 개발자에게 캐시 비용 절감 효과를 직접 제공합니다. 이제 Gemini 2.5 모델 중 하나에 요청을 보낼 때, 해당 요청이 이전 요청과 공통된 접두사를 갖고 있다면 캐시 적중 대상이 됩니다. 동일한 75% 토큰 할인 혜택을 적용하여 절감된 비용을 동적으로 환원할 것입니다.
더 많은 요청이 캐시 적중 대상에 포함되도록 하기 위해서는 요청의 시작 부분 내용은 동일하게 유지하고 프롬프트의 끝에 사용자의 질문이나 요청마다 달라질 수 있는 기타 추가 컨텍스트 같은 내용을 추가해야 합니다. Gemini API 문서에서 암시적 캐싱 사용에 대한 더 많은 모범 사례를 확인할 수 있습니다.
더 많은 요청이 캐시 적중 대상이 되도록 하기 위해 최소 요청 크기를 2.5 Flash의 경우에는 1,024개 토큰으로, 2.5 Pro의 경우에는 2,048개 토큰으로 줄였습니다.
비용 절감을 보장하려는 경우에도 Gemini 2.5 및 2.0 모델을 지원하는 명시적 캐싱 API를 사용할 수 있습니다. 현재 Gemini 2.5 모델을 사용 중이라면 요청 중 캐시된 토큰 수를 나타내는 cached_content_token_count
가 사용 메타데이터에 표시되기 시작할 것입니다. 해당 토큰에는 더 낮은 요금이 적용됩니다.
더 높은 비용 효율성을 통해 파레토 경계를 계속해서 더 확장해 나갈 수 있게 되어 기쁘게 생각하며, 캐싱 업데이트에 대한 여러분의 진솔한 의견을 기다리겠습니다!