이제 Gemini 2.5 모델에서 암시적 캐싱 지원

2025년 5월 8일

Logan Kilpatrick Group Product Manager

저희는 2024년 5월에 컨텍스트 캐싱을 처음 도입해 개발자가 모델에 반복적으로 전달된 컨텍스트의 75%를 명시적 캐싱 방식으로 절감할 수 있도록 지원했습니다. 오늘은 Gemini API에서 많은 요청을 받은 기능인 암시적 캐싱을 선보입니다.

Gemini API를 사용한 암시적 캐싱

암시적 캐싱은 명시적 캐시를 생성할 필요 없이 개발자에게 캐시 비용 절감 효과를 직접 제공합니다. 이제 Gemini 2.5 모델 중 하나에 요청을 보낼 때, 해당 요청이 이전 요청과 공통된 접두사를 갖고 있다면 캐시 적중 대상이 됩니다. 동일한 75% 토큰 할인 혜택을 적용하여 절감된 비용을 동적으로 환원할 것입니다.

더 많은 요청이 캐시 적중 대상에 포함되도록 하기 위해서는 요청의 시작 부분 내용은 동일하게 유지하고 프롬프트의 끝에 사용자의 질문이나 요청마다 달라질 수 있는 기타 추가 컨텍스트 같은 내용을 추가해야 합니다. Gemini API 문서에서 암시적 캐싱 사용에 대한 더 많은 모범 사례를 확인할 수 있습니다.

더 많은 요청이 캐시 적중 대상이 되도록 하기 위해 최소 요청 크기를 2.5 Flash의 경우에는 1,024개 토큰으로, 2.5 Pro의 경우에는 2,048개 토큰으로 줄였습니다.

Gemini 2.5를 통한 토큰 할인에 대한 이해

비용 절감을 보장하려는 경우에도 Gemini 2.5 및 2.0 모델을 지원하는 명시적 캐싱 API를 사용할 수 있습니다. 현재 Gemini 2.5 모델을 사용 중이라면 요청 중 캐시된 토큰 수를 나타내는 cached_content_token_count가 사용 메타데이터에 표시되기 시작할 것입니다. 해당 토큰에는 더 낮은 요금이 적용됩니다.

시작하기

더 높은 비용 효율성을 통해 파레토 경계를 계속해서 더 확장해 나갈 수 있게 되어 기쁘게 생각하며, 캐싱 업데이트에 대한 여러분의 진솔한 의견을 기다리겠습니다!