先週、Gemini 1.5 Pro(0801)を試験的にアップデートしたバージョンをリリースしました。これは、テキストとマルチモーダルの両方の問い合わせで、LMSYS リーダーボードの第一位にランクインしたものです。すばらしいことに、このモデルにはすぐに反響が寄せられたため、上限値を引き上げてテストを行いました。近日中にさらにアップデートを行う予定です。
本日は、AI Studio と Gemini API の一連の改善についてお知らせします。
1.5 Flash は、要約、分類、マルチモーダル理解など、大量かつ低遅延のユースケースに対応しなければならないデベロッパーの間で、最も人気の高い Gemini モデルです。このモデルをさらに手頃な価格で使用していただけるように、8 月 12 日より、128K 以下のトークンで入力の価格を 78% 引き下げて百万トークンあたり $0.075、出力の価格を 71% 引き下げて百万トークンあたり $0.3 とします(128K を超えるトークンの階層とキャッシュも同様です)。この価格とコンテキスト キャッシングなどのツールにより、Gemini 1.5 Flash のロング コンテキストとマルチモーダル機能を使って開発する際のコストを大幅に削減できるようになります。
Gemini 1.5 Pro と Flash モデルの両方の言語理解機能を拡張します。100 以上の言語に対応するので、世界中のデベロッパーが好きな言語でプロンプトを入力し、出力を受け取れるようになります。これにより、Gemini API からモデルを使う際に、終了理由として「言語」ブロックが現れることがなくなるはずです。
Google Workspace ユーザーは、追加の設定を行うことなく、デフォルトで Google AI Studio にアクセスできるようになります。これにより、数百万人のユーザーがスムーズに Google AI Studio を使えるようになります。アカウント管理者が AI Studio へのアクセスを管理できる点は変わりません。
Gemini API と Google AI Studio から Gemini 1.5 Flash テキスト チューニングを行えるようにする機能を、すべてのデベロッパーに向けてロールアウトしました。デベロッパーは、チューニングを行って基本モデルをカスタマイズし、モデルに追加データを提供してタスクのパフォーマンスを向上させることができます。プロンプトのコンテキスト サイズを小さくしたり、レイテンシを短縮したり、場合によってはコストを削減したりしながら、タスクのモデルの精度を高めることができます。
デベロッパー ドキュメントは、Gemini API を使った開発エクスペリエンスの中核です。先日、一連の改善を公開し、コンテンツ、ナビゲーション、ルック アンド フィールを更新しました。また、刷新した API リファレンスも公開しました。
近日中にドキュメントをさらに改善する予定です。引き続きフィードバックをお寄せください!
Gemini API と AI Studio で、テキストと視覚の両方を使って PDF を解釈できるようになりました。PDF にグラフや画像などのテキスト以外の視覚コンテンツが含まれている場合、モデルはネイティブ マルチモーダル機能を使って PDF を処理します。この機能は、Google AI Studio または Gemini API で試すことができます。
ここ数週間で、キーボード ショートカットの見直し、UI への画像のドラッグ&ドロップ、読み込み時間の最大 50% 短縮、プロンプト提案機能の追加など、AI Studio に多くの改善を加えています!
Gemini API と Google AI Studio のすべての作業の中心にあるのは、デベロッパーの皆さんです。今後も、Gemini API デベロッパー フォーラムでのフィードバックの作成と共有をお願いします。