Gemini 2.5 モデルが暗黙的キャッシュをサポート

2025年5月8日
Logan Kilpatrick Group Product Manager

私たちは 2024 年 5 月より、コンテキスト キャッシュを率先して開始しました。この仕組みでは、明示的キャッシュを使うことで、モデルに繰り返し渡す必要があるコンテキストを 75% 節約することができます。そして本日より、Gemini API で非常に要望が多かった暗黙的キャッシュをロールアウトします。


Gemini API の暗黙的キャッシュ

暗黙的キャッシュを利用すると、明示的キャッシュを作成しなくても、キャッシュによって費用を削減できます。いずれかの Gemini 2.5 モデルにリクエストを送信すると、そのリクエストで以前のリクエストと同じプレフィックスが用いられていれば、キャッシュ ヒットの対象となります。この費用削減は、同じ 75% のトークン割引という形で、動的に皆さんに還元されます。

リクエストのキャッシュ ヒット率を上げるには、リクエストの先頭部分を統一する必要があります。つまり、ユーザーの質問や追加のコンテキストなど、リクエストごとに変わる可能性のあるものをプロンプトの最後に追加します。暗黙的キャッシュのベスト プラクティスの詳細は、Gemini API ドキュメントをご覧ください。

キャッシュ ヒット率を上げるため、最小リクエスト サイズを 2.5 Flash では 1024 トークンに、2.5 Pro では 2048 トークンに減らしています。


Gemini 2.5 のトークン割引の詳細

確実に費用を減らしたい場合は、引き続き明示的キャッシュ API をお使いください。Gemini 2.5 および 2.0 モデルがサポートされています。現在 Gemini 2.5 モデルをお使いの方は、リクエストに含まれるキャッシュに保存されたトークン数を示す cached_content_token_count が使用状況メタデータに追加されます。このトークンには割引価格が適用されます。


使ってみる

私たちは、コスト品質比の最適解を追求し、さらに費用対効果を高めることができるようにします。キャッシュのアップデートについてのフィードバックをお待ちしています!