Gemini 1.5 Flash-8B が本番環境で利用可能に

10月 03, 2024
Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio
Shrestha Basu Mallick Group Product Manager Gemini API

本日、最新の Flash バリアントである Gemini 1.5 Flash-8B が本番環境で利用できるようになりました。合わせて、以下の変更を行います。

  • 50% の値下げ(1.5 Flash と比較して)

  • レート制限を 2 倍に緩和(1.5 Flash と比較して)

  • 小さなプロンプトでのレイテンシの低下(1.5 Flash と比較して)


デベロッパーの皆さんは、Google AI StudioGemini API から、無料で gemini-1.5-flash-8b にアクセスできます。


さらに小さく高速になった軽量モデル

スピードと効率性に最適化した軽量モデルである Gemini 1.5 Flash は、I/O で発表されました。過去数か月で、Google DeepMind の作業は大きく進展しています。デベロッパーのフィードバックをもとに、可能性の限界をテストすることを通して、1.5 Flash をさらに改善しました。

先月には、Gemini 1.5 Flash-8B の試験運用版をリリースしました。これは、1.5 Flash をさらに小さく高速にしたバリアントです。そしてうれしいことに、これが本番環境向けに一般公開されました。Flash-8B は、多くのベンチマークで、5 月に公開された 1.5 Flash モデルとほぼ同じ性能となっており、チャット、音声文字変換、長文翻訳などのタスクで、特に優れたパフォーマンスを発揮します。

今回リリースされたこの最高水準の小規模モデルは、デベロッパーのフィードバックや、モデルを使ってできることをテストする独自の歩みによって、今後も進化し続けます。このモデルの可能性が一番発揮されると考えられるのは、大規模マルチモーダル ユースケースや長文要約などのタスクです。

Performance chart of the 1.5 Flash model launched in May across many benchmark

インテリジェンスあたりのコストが最も安価な Gemini モデル

Gemini 1.5 Flash-8B の安定版リリースは、インテリジェンスあたりのコストが最も安価な Gemini モデルの誕生を意味します。

  • 128K 以下のプロンプトで、100 万入力トークンあたり 0.0375 ドル

  • 128K 以下のプロンプトで、100 万出力トークンあたり 0.15 ドル

  • 128K 以下のキャッシュに保存されたプロンプトで、100 万トークンあたり 0.01 ドル


有料プランのデベロッパーへの課金は、10 月 14 日(月)より開始されます。

私たちはこれまでも、1.5 Flash1.5 Pro でデベロッパーのコストを削減する作業を行ってきました。今回の新しい価格も、それと同じく、デベロッパーが自由にプロダクトやサービスを開発し、世界を進化させることを目指す私たちの姿勢を明確に表すものです。

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Flash-8B のレート制限を 2 倍に緩和

Gemini 1.5 Flash-8B は、大量のシンプルなタスクに最適です。このモデルをできるだけ便利に使っていただけるよう、1.5 Flash-8B のレート制限を 2 倍に緩和しています。つまり、デベロッパーは 1 分あたり最大 4,000 リクエスト(RPM)を送信できます。

開発を楽しみながら、今後の最新情報にご期待ください。