Gemini 1.5 Pro が 180 か国以上で利用可能に: ネイティブオーディオ理解、システム指示、JSON モードなど

2024年4月9日

Jaclyn Konzelmann Google Labs

Megan Li Google Labs

Google AI Studio で API キーを 取得し、Gemini API クックブックを使ってみよう

デベロッパーが Google AI Studio で次世代の Gemini 1.5 Pro モデルを試用できるようにしたのは、2 か月ほど前のことでした。私たちは、画期的な 100 万コンテキストウィンドウを使ってコミュニティがデバッグ、作成、学習したことを見て驚きました。

本日、Gemini 1.5 Pro を 180 か国以上で利用可能にします。Gemini API を使って公開プレビュー版として利用でき、初めてのネイティブオーディオ（スピーチ）理解機能と、ファイルを簡単に処理できる新しいファイル API が含まれています。また、システム指示や JSON モードなどの新機能をリリースし、デベロッパーがモデルの出力をこれまで以上に細かく制御できるようにしています。最後に、同等のモデルを上回る次世代のテキスト埋め込みモデルをリリースします。Google AI Studio に移動して、API キーを作成またはアクセスし、開発を始めましょう。

オーディオとビデオに対応し、新たなユースケースを実現

Gemini 1.5 Pro の入力モダリティを拡張し、Gemini API と Google AI Studio の両方で、オーディオ（スピーチ）を理解できるようにします。さらに、Gemini 1.5 Pro は、Google AI Studio にアップロードしたビデオの画像（フレーム）と音声（スピーチ）の両方で推論を行うことができるようになりました。これをサポートする API は、近日中に追加する予定です。

screen grab of a clooege professor using Gemini 1.5 Pro to create a quiz based on their latest lecture video in Google AI Studio

11 万 7,000 トークン以上の Jeff Dean の講義などの録画をアップロードすると、Gemini 1.5 Pro は解答つきのクイズに変えることができる。[動画はデモ用にスピードアップされています]

Gemini API の改善

本日、デベロッパーから特に多く寄せられているリクエストに対応します。

1. システム指示： Google AI Studio と Gemini API で利用できるシステム指示で、モデルの応答を制御します。役割、形式、目標、ルールを定義して、特定のユースケース向けにモデルの動作を制御できます。

Image showing where System Instructions is located in Google AI Studio

Google AI Studio で簡単にシステム指示を設定

2. JSON モード: JSON オブジェクトのみを出力するようにモデルに指示します。このモードでは、テキストや画像から構造化データを抽出できます。cURL で利用でき、まもなく Python SDK もサポートされます。

3. 関数呼び出しの改善: モデルの出力を制限するモードを選択できるようになり、信頼性が向上しました。テキスト、関数呼び出し、または関数自体を選択します。

パフォーマンスが向上した新しい埋め込みモデル

本日より、デベロッパーが Gemini API から次世代のテキスト埋め込みモデルにアクセスできるようになります。新しいモデルである text-embedding-004（Vertex AI では text-embedding-preview-0409）は、優れた検索機能を実現し、MTEB ベンチマークにおいて、同程度のディメンションの既存モデルを上回ります。

table showing Gecko: Versativel Text Embeddings Distilled from Large Language Models

256 ディメンション出力の 'Text-embedding-004'（別名 Gecko）は、MTEB ベンチマークで、それよりも大きな 768 ディメンションの出力モデルよりも優れた結果を出している

ここで紹介したのは、今後数週間のうちに Gemini API と Google AI Studio に追加される多くの改善の始まりに過ぎません。私たちは、Google AI Studio と Gemini API が、Gemini を使った最も簡単な開発方法となるように、努力を続けています。さっそく Google AI Studio で Gemini 1.5 Pro を使ってみてください。新しい Gemini API クックブックでコード例とクイックスタートを確認したり、Discord のコミュニティチャンネルに参加したりすることもできます。

Gemini 1.5 Pro が 180 か国以上で利用可能に: ネイティブ オーディオ理解、システム指示、JSON モードなど

オーディオとビデオに対応し、新たなユースケースを実現

Gemini API の改善

パフォーマンスが向上した新しい埋め込みモデル

Gemini 1.5 Pro が 180 か国以上で利用可能に: ネイティブオーディオ理解、システム指示、JSON モードなど