Hari ini kami meluncurkan versi awal Gemini 2.5 Flash dalam versi pratinjau melalui Gemini API pada Google AI Studio dan Vertex AI. Dibangun berdasarkan fondasi populer 2.0 Flash, versi baru ini memberikan upgrade besar dalam kemampuan penalaran, dengan tetap memprioritaskan kecepatan dan biaya. Gemini 2.5 Flash adalah model penalaran hybrid penuh pertama kami, yang memberikan kemampuan kepada developer untuk mengaktifkan atau menonaktifkan kemampuan berpikir. Model ini juga memungkinkan developer mengatur anggaran berpikir untuk menemukan keseimbangan yang tepat antara kualitas, biaya, dan latensi. Bahkan dengan menonaktifkan kemampuan berpikir, developer dapat mempertahankan kecepatan tinggi 2.0 Flash, dan meningkatkan performa.
Model Gemini 2.5 kami adalah model berpikir, yang mampu melakukan penalaran melalui pemikiran mereka sebelum merespons. Alih-alih langsung menghasilkan output, model ini bisa melakukan proses “berpikir” untuk lebih memahami prompt, menguraikan tugas-tugas kompleks, dan merencanakan respons. Pada tugas kompleks yang membutuhkan beberapa langkah penalaran (seperti memecahkan soal matematika atau menganalisis pertanyaan penelitian), proses berpikir memungkinkan model untuk mendapatkan jawaban yang lebih akurat dan komprehensif. Bahkan, Gemini 2.5 Flash berkinerja sangat baik pada Hard Prompt di LMArena, nomor dua setelah 2.5 Pro.
2.5 Flash terus memimpin sebagai model dengan rasio harga terhadap performa yang terbaik.
Kami tahu bahwa kasus penggunaan yang berbeda memiliki kompromi yang berbeda dalam hal kualitas, biaya, dan latensi. Untuk memberikan fleksibilitas kepada developer, kami mengaktifkan pengaturan anggaran berpikir yang menawarkan kontrol yang lebih baik atas jumlah maksimum token yang dapat dihasilkan oleh sebuah model ketika sedang berpikir. Anggaran yang lebih tinggi memungkinkan model berpikir lebih jauh untuk meningkatkan kualitas. Yang terpenting, anggaran ini menetapkan batas pada seberapa banyak 2.5 Flash bisa berpikir, tetapi model tidak menggunakan anggaran penuh jika prompt tidak memerlukannya.
Model ini dilatih untuk mengetahui berapa lama waktu berpikir yang dibutuhkan untuk suatu prompt, dan oleh karena itu secara otomatis memutuskan berapa banyak yang harus dipikirkan berdasarkan kompleksitas tugas yang diterima.
Jika Anda ingin meminimalkan biaya dan latensi sambil tetap meningkatkan performa dibandingkan 2.0 Flash, setel anggaran berpikir ke 0. Anda juga bisa memilih untuk menetapkan anggaran token tertentu untuk fase berpikir menggunakan parameter di API atau penggeser di Google AI Studio dan Vertex AI. Anggaran dapat berkisar dari 0 hingga 24576 token untuk 2.5 Flash.
Prompt berikut ini menunjukkan seberapa banyak penalaran yang dapat digunakan dalam mode default 2.5 Flash.
Contoh 1: “Terima kasih” dalam bahasa Spanyol
Contoh 2: Berapa banyak provinsi yang dimiliki Kanada?
Contoh 1: Anda melempar dua dadu. Berapa probabilitas kedua dadu tersebut berjumlah 7?
Contoh 2: Sasana saya memiliki jam penjemputan bola basket antara jam 9-3 sore pada hari Senin, Rabu, Jumat dan antara jam 2-8 malam pada hari Selasa dan Sabtu. Jika saya bekerja dari jam 9-6 sore 5 hari seminggu dan ingin bermain basket selama 5 jam pada hari kerja, buatlah jadwal agar saya dapat melakukannya.
Contoh 1: Balok kantilever dengan panjang L=3m memiliki penampang persegi panjang (lebar b=0,1m, tinggi h=0,2m) dan terbuat dari baja (E=200 GPa). Balok tersebut menerima beban terdistribusi merata sebesar w=5 kN/m di sepanjang bentangannya dan beban titik P=10 kN pada ujung bebasnya. Hitunglah tegangan lentur maksimum (σ_max).
Contoh 2: Tulis fungsi evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]
yang menghitung nilai sel spreadsheet.
Setiap sel berisi:
"3"
)"=A1 + B1 * 2"
menggunakan +
, -
, *
,/
, dan sel lainnya.Persyaratan:
*/
sebelum +-
).ValueError("Cycle detected at <cell>")
.eval()
. Gunakan hanya library bawaan.Gemini 2.5 Flash dengan kemampuan berpikir sekarang tersedia dalam versi pratinjau melalui Gemini API di Google AI Studio dan Vertex AI, serta dalam menu dropdown khusus di aplikasi Gemini. Kami mendorong Anda untuk bereksperimen dengan parameter thinking_budget
dan mengeksplorasi bagaimana penalaran terkontrol bisa membantu Anda memecahkan masalah yang lebih kompleks.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Temukan referensi API terperinci dan panduan berpikir dalam dokumen developer kami atau mulai dengan contoh kode dari Gemini Cookbook.
Kami akan terus menyempurnakan Gemini 2.5 Flash dan akan segera merilis pembaruan lainnya, sebelum kami membuatnya tersedia secara umum untuk penggunaan produksi penuh.
*Harga model bersumber dari Analisis Buatan & Dokumentasi Perusahaan