Model Gemini siap produksi terbaru, penurunan harga 1.5 Pro, peningkatan batas kecepatan, dan lainnya

24 SEP. 2024

Logan Kilpatrick Group Product Manager

Shrestha Basu Mallick Product Google DeepMind

Hari ini, kami merilis dua model Gemini siap produksi terbaru: Gemini-1.5-Pro-002 dan Gemini-1.5-Flash-002 bersama dengan:

>Potongan harga 50% untuk 1.5 Pro (baik input maupun output untuk prompt <128K)
Batas kecepatan 2x lebih tinggi pada 1.5 Flash dan ~3x lebih tinggi pada 1.5 Pro
Output 2x lebih cepat dan latensi 3x lebih rendah
Setelan filter default yang diperbarui

Model baru ini dibuat berdasarkan model eksperimental terbaru yang kami rilis dan mencakup peningkatan yang signifikan untuk model Gemini 1.5 yang dirilis di Google I/O pada bulan Mei. Developer bisa mengakses model terbaru kami secara gratis melalui Google AI Studio dan Gemini API. Untuk organisasi yang lebih besar dan pelanggan Google Cloud, model ini juga tersedia di Vertex AI.

Peningkatan kualitas secara keseluruhan, dengan peningkatan yang lebih besar dalam matematika, konteks panjang, dan visi

Seri Gemini 1.5 adalah model yang dirancang untuk performa umum pada berbagai macam teks, kode, dan tugas multimodal. Sebagai contoh, model Gemini bisa digunakan untuk menyintesis informasi dari 1000 halaman PDF, menjawab pertanyaan tentang repo yang berisi lebih dari 10 ribu baris kode, mengambil video berdurasi satu jam dan membuat konten yang bermanfaat dari video tersebut, dan masih banyak lagi.

Dengan update terbaru, 1.5 Pro dan Flash sekarang semakin baik, cepat, dan lebih hemat biaya saat digunakan dalam produksi. Kami melihat peningkatan ~7% pada MMLU-Pro, versi yang lebih menantang dari tolok ukur MMLU populer. Pada tolok ukur MATH dan HiddenMath (kumpulan soal matematika kompetisi internal), kedua model ini menunjukkan peningkatan yang cukup besar ~20%. Untuk kasus penggunaan visi dan kode, kedua model juga memiliki performa yang lebih baik (berkisar antara ~2-7%) dalam seluruh evaluasi yang mengukur pemahaman visual dan pembuatan kode Python.

A table showcasing benchmark data, demonstrating improved performance for the latest Gemini models, Gemini 1.5 Pro and Gemini 1.5 Flash. The table highlights advancements in various capabilities including reasoning, code, and math

Kami juga meningkatkan keseluruhan bantuan dari respons model, sembari terus menjunjung tinggi kebijakan dan standar keamanan konten. Ini berarti lebih sedikit penolakan dan lebih banyak respons yang membantu dalam banyak topik.

Kedua model sekarang memiliki gaya yang lebih ringkas sebagai respons terhadap masukan developer yang dimaksudkan agar model ini lebih mudah digunakan dan mengurangi biaya. Untuk kasus penggunaan seperti peringkasan, menjawab pertanyaan, dan ekstraksi, panjang output default dari model yang diperbarui adalah ~5-20% lebih pendek dari model sebelumnya. Untuk produk berbasis chat ketika pengguna mungkin lebih menyukai respons yang lebih panjang secara default, Anda bisa membaca panduan strategi prompting kami untuk mempelajari lebih lanjut tentang cara agar respons model lebih detail dan komunikatif.

Untuk detail selengkapnya mengenai migrasi ke versi terbaru Gemini 1.5 Pro dan 1.5 Flash, lihat halaman model Gemini API.

Gemini 1.5 Pro

Kami semakin terpukau dengan aplikasi-aplikasi kreatif dan bermanfaat dari jendela konteks panjang 2 juta token dan kemampuan multimodal Gemini 1.5 Pro. Dari memahami video hingga memproses 1000 halaman PDF, ada begitu banyak kasus penggunaan baru yang masih bisa dikembangkan. Hari ini kami mengumumkan penurunan harga 64% untuk token input, penurunan harga 52% untuk token output, dan penurunan harga 64% untuk token yang di-cache secara inkremental untuk model seri 1.5 terkuat kami, Gemini 1.5 Pro, efektif mulai tanggal 1 Oktober 2024, dengan prompt kurang dari 128K token. Dipadukan dengan caching konteks, ini akan terus menurunkan biaya pembuatan aplikasi dengan Gemini.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Peningkatan batas kecepatan

Untuk mempermudah developer dalam membangun dengan Gemini, kami meningkatkan batas kecepatan tingkat berbayar untuk 1.5 Flash menjadi 2.000 RPM dan 1.5 Pro menjadi 1.000 RPM, naik dari yang sebelumnya 1.000 dan 360. Dalam beberapa minggu mendatang, kami berharap dapat terus meningkatkan batas kecepatan Gemini API sehingga developer bisa membangun lebih banyak lagi dengan Gemini.

Output 2x lebih cepat dan latensi 3x lebih sedikit

Seiring dengan peningkatan inti pada model terbaru kami, dalam beberapa minggu terakhir kami telah menurunkan latensi dengan 1.5 Flash dan secara signifikan meningkatkan token output per detik, memungkinkan kasus penggunaan baru dengan model terkuat kami.

Side-by-side graphs charting the latency of Google's Gemini model over time, showing improvements.

Setelan filter yang diperbarui

Sejak peluncuran pertama Gemini pada bulan Desember 2023, membangun model yang aman dan reliabel telah menjadi fokus utama. Dengan versi terbaru Gemini (model -002), kami telah meningkatkan kemampuan model untuk mengikuti instruksi pengguna sekaligus menyeimbangkan keamanan. Kami akan terus menawarkan serangkaian filter keamanan yang dapat diterapkan oleh developer pada model Google. Untuk model yang dirilis hari ini, filter tidak akan diterapkan secara default sehingga developer bisa menentukan konfigurasi yang paling sesuai untuk kasus penggunaan mereka.

Update Gemini 1.5 Flash-8B Eksperimental

Kami merilis versi penyempurnaan lanjutan dari model Gemini 1.5 yang kami umumkan pada bulan Agustus lalu, yang disebut “Gemini-1.5-Flash-8B-Exp-0924.” Versi yang disempurnakan ini mencakup peningkatan performa yang signifikan pada berbagai kasus penggunaan teks dan multimodal. Versi ini tersedia sekarang melalui Google AI Studio dan Gemini API.

Masukan yang sangat positif dari developer mengenai 1.5 Flash-8B sungguh luar biasa, dan kami akan terus membentuk pipeline rilis eksperimental hingga produksi berdasarkan masukan developer.

Kami sangat senang dengan update ini dan tidak sabar menantikan kreasi yang akan Anda buat dengan model Gemini terbaru! Dan untuk pengguna Gemini Advanced, Anda akan segera dapat mengakses versi Gemini 1.5 Pro-002 yang dioptimalkan untuk chat.

diposting di: