Gemini 1.5 Pro Kini Tersedia di 180+ Negara; dengan Pemahaman Audio Native, Petunjuk Sistem, Mode JSON, dan banyak lagi

APR 09, 2024
Jaclyn Konzelmann Google Labs
Megan Li Google Labs

Dapatkan Kunci API di Google AI Studio, dan mulailah dengan Gemini API Cookbook

Kurang dari dua bulan lalu, kami menyediakan model Gemini 1.5 Pro generasi berikutnya di Google AI Studio agar dapat dicoba oleh developer. Kami sangat kagum dengan kemampuan komunitas melakukan debug, membuat, dan belajar menggunakan 1 juta jendela konteks revolusioner kami.

Hari ini, kami menyediakan Gemini 1.5 Pro di lebih dari 180 negara melalui Gemini API dalam versi pratinjau publik, dengan kemampuan pemahaman audio (ucapan) native untuk pertama kalinya dan File API baru untuk memudahkan Anda menangani file. Kami juga meluncurkan fitur baru seperti petunjuk sistem dan mode JSON untuk memberikan kontrol yang lebih besar kepada developer terhadap output model. Yang terakhir, kami merilis model sematan teks generasi berikutnya yang mengungguli model serupa. Buka Google AI Studio untuk membuat atau mengakses Kunci API Anda, dan mulailah membangun.


Membuka kasus penggunaan baru dengan modalitas audio dan video

Kami memperluas modalitas input untuk Gemini 1.5 Pro dengan menyertakan pemahaman audio (ucapan) di Gemini API dan Google AI Studio. Selain itu, Gemini 1.5 Pro sekarang dapat memproses gambar (bingkai) dan audio (ucapan) untuk video yang diupload di Google AI Studio, dan kami berharap bisa segera menambahkan dukungan API untuk hal ini.

screen grab of a clooege professor using Gemini 1.5 Pro to create a quiz based on their latest lecture video in Google AI Studio
Anda bisa mengupload rekaman kuliah, seperti kuliah dengan 117.000+ token dari Jeff Dean, dan Gemini 1.5 Pro bisa mengubahnya menjadi kuis dengan kunci jawaban. [Video dipercepat untuk tujuan demo]

Peningkatan Gemini API

Hari ini, kami merespons sejumlah permintaan developer teratas:

1. Petunjuk sistem: Arahkan respons model dengan petunjuk sistem, yang kini tersedia di Google AI Studio dan Gemini API. Tentukan peran, format, tujuan, dan aturan guna mengarahkan perilaku model untuk kasus penggunaan khusus Anda.

Image showing where System Instructions is located in Google AI Studio
Atur Petunjuk Sistem dengan mudah di Google AI Studio

2. Mode JSON: Instruksikan model agar hanya memberikan output objek JSON. Mode ini memungkinkan ekstraksi data terstruktur dari teks atau gambar. Anda bisa memulai dengan cURL, dan dukungan Python SDK akan segera hadir.


3. Peningkatan pada panggilan fungsi: Anda sekarang bisa memilih mode untuk membatasi output model, sehingga meningkatkan keandalan. Pilih teks, panggilan fungsi, atau hanya fungsi tersebut.


Model sematan baru dengan performa yang lebih baik

Mulai hari ini, developer dapat mengakses model sematan teks generasi berikutnya melalui Gemini API. Model baru, text-embedding-004, (text-embedding-preview-0409 di Vertex AI), mencapai performa pengambilan yang lebih kuat dan mengungguli model yang sudah ada dengan dimensi serupa, pada tolok ukur MTEB.

table showing Gecko: Versativel Text Embeddings Distilled from Large Language Models
'Text-embedding-004' (alias Gecko) yang menggunakan output 256 dim mengungguli semua model output 768 dim yang lebih besar pada tolok ukur MTEB

Ini hanyalah peningkatan pertama dari sekian banyak peningkatan yang akan hadir di Gemini API dan Google AI Studio dalam beberapa minggu ke depan. Kami terus berupaya menjadikan Google AI Studio dan Gemini API sebagai cara termudah untuk membangun aplikasi dengan Gemini. Mulailah sekarang di Google AI Studio dengan Gemini 1.5 Pro, jelajahi contoh kode dan panduan memulai di Gemini API Cookbook yang baru, dan bergabunglah dengan saluran komunitas kami di Discord.