Mulai membangun dengan Gemini 2.5 Flash

17 APRIL 2025
Tulsee Doshi Director of Product Management Gemini

Hari ini kami meluncurkan versi awal Gemini 2.5 Flash dalam versi pratinjau melalui Gemini API pada Google AI Studio dan Vertex AI. Dibangun berdasarkan fondasi populer 2.0 Flash, versi baru ini memberikan upgrade besar dalam kemampuan penalaran, dengan tetap memprioritaskan kecepatan dan biaya. Gemini 2.5 Flash adalah model penalaran hybrid penuh pertama kami, yang memberikan kemampuan kepada developer untuk mengaktifkan atau menonaktifkan kemampuan berpikir. Model ini juga memungkinkan developer mengatur anggaran berpikir untuk menemukan keseimbangan yang tepat antara kualitas, biaya, dan latensi. Bahkan dengan menonaktifkan kemampuan berpikir, developer dapat mempertahankan kecepatan tinggi 2.0 Flash, dan meningkatkan performa.

Model Gemini 2.5 kami adalah model berpikir, yang mampu melakukan penalaran melalui pemikiran mereka sebelum merespons. Alih-alih langsung menghasilkan output, model ini bisa melakukan proses “berpikir” untuk lebih memahami prompt, menguraikan tugas-tugas kompleks, dan merencanakan respons. Pada tugas kompleks yang membutuhkan beberapa langkah penalaran (seperti memecahkan soal matematika atau menganalisis pertanyaan penelitian), proses berpikir memungkinkan model untuk mendapatkan jawaban yang lebih akurat dan komprehensif. Bahkan, Gemini 2.5 Flash berkinerja sangat baik pada Hard Prompt di LMArena, nomor dua setelah 2.5 Pro.

Comparison table showing price and performance metrics for LLMs
2.5 Flash memiliki metrik yang sebanding dengan model terkemuka lainnya dengan biaya dan ukuran yang jauh lebih kecil.

Model pemikiran kami yang paling hemat biaya

2.5 Flash terus memimpin sebagai model dengan rasio harga terhadap performa yang terbaik.

A graph showing Gemini 2.5 Flash price-to-performance comparison
Gemini 2.5 Flash menambahkan model lain ke dalam batas pareto Google terkait biaya dan kualitas.*

Kontrol yang lebih baik untuk mengelola pemikiran

Kami tahu bahwa kasus penggunaan yang berbeda memiliki kompromi yang berbeda dalam hal kualitas, biaya, dan latensi. Untuk memberikan fleksibilitas kepada developer, kami mengaktifkan pengaturan anggaran berpikir yang menawarkan kontrol yang lebih baik atas jumlah maksimum token yang dapat dihasilkan oleh sebuah model ketika sedang berpikir. Anggaran yang lebih tinggi memungkinkan model berpikir lebih jauh untuk meningkatkan kualitas. Yang terpenting, anggaran ini menetapkan batas pada seberapa banyak 2.5 Flash bisa berpikir, tetapi model tidak menggunakan anggaran penuh jika prompt tidak memerlukannya.

Plot graphs show improvements in reasoning quality as thinking budget increases
Peningkatan kualitas penalaran seiring dengan meningkatnya anggaran berpikir.

Model ini dilatih untuk mengetahui berapa lama waktu berpikir yang dibutuhkan untuk suatu prompt, dan oleh karena itu secara otomatis memutuskan berapa banyak yang harus dipikirkan berdasarkan kompleksitas tugas yang diterima.

Jika Anda ingin meminimalkan biaya dan latensi sambil tetap meningkatkan performa dibandingkan 2.0 Flash, setel anggaran berpikir ke 0. Anda juga bisa memilih untuk menetapkan anggaran token tertentu untuk fase berpikir menggunakan parameter di API atau penggeser di Google AI Studio dan Vertex AI. Anggaran dapat berkisar dari 0 hingga 24576 token untuk 2.5 Flash.

Prompt berikut ini menunjukkan seberapa banyak penalaran yang dapat digunakan dalam mode default 2.5 Flash.


Prompt yang membutuhkan penalaran rendah:

Contoh 1: “Terima kasih” dalam bahasa Spanyol

Contoh 2: Berapa banyak provinsi yang dimiliki Kanada?


Permintaan yang membutuhkan penalaran sedang:

Contoh 1: Anda melempar dua dadu. Berapa probabilitas kedua dadu tersebut berjumlah 7?

Contoh 2: Sasana saya memiliki jam penjemputan bola basket antara jam 9-3 sore pada hari Senin, Rabu, Jumat dan antara jam 2-8 malam pada hari Selasa dan Sabtu. Jika saya bekerja dari jam 9-6 sore 5 hari seminggu dan ingin bermain basket selama 5 jam pada hari kerja, buatlah jadwal agar saya dapat melakukannya.


Prompt yang membutuhkan penalaran tinggi:

Contoh 1: Balok kantilever dengan panjang L=3m memiliki penampang persegi panjang (lebar b=0,1m, tinggi h=0,2m) dan terbuat dari baja (E=200 GPa). Balok tersebut menerima beban terdistribusi merata sebesar w=5 kN/m di sepanjang bentangannya dan beban titik P=10 kN pada ujung bebasnya. Hitunglah tegangan lentur maksimum (σ_max).

Contoh 2: Tulis fungsi evaluate_cells(cells: Dict[str, str]) -> Dict[str, float] yang menghitung nilai sel spreadsheet.

Setiap sel berisi:

  • Angka (mis., "3")

  • Atau formula seperti "=A1 + B1 * 2" menggunakan +, -, *,/, dan sel lainnya.

Persyaratan:

  • Resolve dependensi antar sel.

  • Tangani prioritas operator (*/ sebelum +-).

  • Deteksi siklus dan naikkan ValueError("Cycle detected at <cell>").

  • Tanpa eval(). Gunakan hanya library bawaan.


Mulai membangun dengan Gemini 2.5 Flash hari ini

Gemini 2.5 Flash dengan kemampuan berpikir sekarang tersedia dalam versi pratinjau melalui Gemini API di Google AI Studio dan Vertex AI, serta dalam menu dropdown khusus di aplikasi Gemini. Kami mendorong Anda untuk bereksperimen dengan parameter thinking_budget dan mengeksplorasi bagaimana penalaran terkontrol bisa membantu Anda memecahkan masalah yang lebih kompleks.

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
 
print(response.text)

Temukan referensi API terperinci dan panduan berpikir dalam dokumen developer kami atau mulai dengan contoh kode dari Gemini Cookbook.

Kami akan terus menyempurnakan Gemini 2.5 Flash dan akan segera merilis pembaruan lainnya, sebelum kami membuatnya tersedia secara umum untuk penggunaan produksi penuh.


*Harga model bersumber dari Analisis Buatan & Dokumentasi Perusahaan