Model Gemini 2.5 sekarang mendukung caching implisit

8 MEI 2025
Logan Kilpatrick Group Product Manager

Kami memelopori caching konteks pada bulan Mei 2024, membantu developer menghemat 75% konteks berulang yang diteruskan ke model kami dengan caching eksplisit. Hari ini, kami meluncurkan fitur yang sangat banyak diminta di Gemini API: caching implisit.


Caching implisit dengan Gemini API

Caching implisit secara langsung meneruskan penghematan biaya cache kepada developer tanpa harus membuat cache eksplisit. Sekarang, ketika Anda mengirimkan permintaan ke salah satu model Gemini 2.5, jika permintaan tersebut memiliki prefiks yang sama dengan salah satu permintaan sebelumnya, maka permintaan tersebut memenuhi syarat untuk cache ditemukan. Kami akan secara dinamis mengembalikan penghematan biaya kepada Anda, dengan memberikan diskon token 75%.

Untuk meningkatkan kemungkinan permintaan Anda yang memuat cache ditemukan, Anda harus menjaga isi di awal permintaan tetap sama dan menambahkan beberapa hal seperti pertanyaan pengguna atau konteks tambahan lainnya yang mungkin berubah dari satu permintaan ke permintaan lainnya di akhir prompt. Anda bisa membaca lebih banyak praktik terbaik menggunakan caching implisit dalam dokumen Gemini API.

Agar lebih banyak permintaan memenuhi syarat untuk cache ditemukan, kami mengurangi ukuran permintaan minimum untuk 2.5 Flash menjadi 1024 token dan 2.5 Pro menjadi 2048 token.


Memahami diskon token dengan Gemini 2.5

Apabila Anda ingin memastikan penghematan biaya, Anda tetap bisa menggunakan API caching eksplisit kami, yang mendukung model Gemini 2.5 dan 2.0. Jika Anda menggunakan model Gemini 2.5 saat ini, Anda akan melihat cached_content_token_count dalam metadata penggunaan yang menunjukkan banyaknya token dalam permintaan yang di-cache dan oleh karena itu akan dikenakan biaya yang lebih rendah.


Mulai

Kami sangat bersemangat untuk terus mendorong batasan pareto dengan efisiensi biaya yang lebih besar lagi dan menantikan masukan Anda mengenai update cache kami!