Gemini API menawarkan kepada developer sebuah cara yang efisien untuk membangun aplikasi inovatif dengan model AI generatif termutakhir. Google AI Studio menyederhanakan proses pengujian semua kemampuan API yang memungkinkan pembuatan prototipe dan eksperimen secara cepat dengan prompt teks, gambar, dan bahkan video. Ketika developer ingin menguji dan membangun dalam skala besar, mereka dapat memanfaatkan semua kemampuan yang tersedia melalui Gemini API.
Pratinjau Gemini 2.5 Flash - Kami telah menambahkan pratinjau 2.5 Flash baru (gemini-2.5-flash-preview-05-20) yang lebih baik daripada pratinjau sebelumnya dalam hal penalaran, kode, dan konteks panjang. Versi 2.5 Flash ini sekarang berada di posisi kedua pada papan peringkat LMarena, tepat di bawah 2.5 Pro. Kami juga telah meningkatkan efisiensi biaya Flash dengan update terbaru ini yang mengurangi jumlah token yang dibutuhkan untuk performa yang sama, menghasilkan 22% peningkatan efisiensi pada evaluasi kami. Tujuan kami adalah untuk terus melakukan peningkatan berdasarkan masukan Anda, dan segera menyediakannya secara umum.
Gemini 2.5 Pro dan Flash text-to-speech (TTS) - Kami juga mengumumkan pratinjau 2.5 Pro dan Flash untuk text-to-speech (TTS) yang mendukung output audio native, baik untuk satu maupun beberapa pembicara, dalam 24 bahasa. Dengan model ini, Anda bisa mengontrol ekspresi dan gaya TTS, menciptakan output audio yang kaya. Dengan multipembicara, Anda dapat membuat percakapan dengan beberapa suara yang berbeda untuk interaksi yang dinamis.
Dialog audio native Gemini 2.5 Flash - Dalam pratinjau, model ini tersedia melalui Live API untuk menghasilkan suara percakapan yang terdengar natural, dengan lebih dari 30 suara yang berbeda dan lebih dari 24 bahasa. Kami juga menambahkan audio proaktif sehingga model ini bisa membedakan antara pembicara dan percakapan latar belakang, sehingga ia tahu kapan harus merespons. Selain itu, model ini juga merespons ekspresi dan nada emosi pengguna dengan tepat. Model pemikiran terpisah memungkinkan pertanyaan yang lebih kompleks. Ini memungkinkan Anda membangun agen AI percakapan dan pengalaman yang terasa lebih intuitif dan natural, seperti meningkatkan interaksi pusat panggilan, mengembangkan persona dinamis, membuat karakter suara yang unik, dan masih banyak lagi.
Lyria RealTime - Pembuatan musik secara langsung kini tersedia di Gemini API dan Google AI Studio untuk membuat streaming musik instrumental secara terus menerus menggunakan prompt teks. Dengan Lyria RealTime, kami menggunakan WebSockets untuk membuat saluran komunikasi real-time yang persisten. Model ini terus menghasilkan musik dalam potongan kecil yang mengalir dan beradaptasi berdasarkan input. Bayangkan menambahkan soundtrack yang responsif ke aplikasi Anda atau mendesain jenis instrumen musik baru! Cobalah Lyria RealTime dengan aplikasi PromptDJ-MIDI di Google AI Studio.
Gemini 2.5 Pro Deep Think - Kami juga menguji mode penalaran eksperimental untuk 2.5 Pro. Kami melihat performa luar biasa dengan kemampuan Deep Thinking ini untuk perhitungan yang sangat kompleks dan prompt coding. Kami berharap bisa segera menyediakannya secara luas untuk eksperimen Anda.
Gemma 3n - Gemma 3n adalah model terbuka AI generatif yang dioptimalkan untuk penggunaan di perangkat sehari-hari, seperti ponsel, laptop, dan tablet. Ia bisa menangani input teks, audio, dan visi. Model ini menyertakan inovasi dalam pemrosesan hemat parameter, termasuk cache parameter Per-Layer Embedding (PLE) dan arsitektur model MatFormer yang memberikan fleksibilitas untuk mengurangi kebutuhan komputasi dan memori.
Untuk membantu developer memahami dan men-debug respons model, kami menambahkan ringkasan pemikiran untuk 2.5 Pro dan Flash di Gemini API. Kami mengambil pemikiran mentah dari model dan menyintesisnya menjadi ringkasan yang bermanfaat dengan tajuk, detail yang relevan, dan panggilan alat. Rangkaian pemikiran mentah di Google AI Studio juga telah diupdate dengan ringkasan pemikiran yang baru.
Kami meluncurkan 2.5 Flash dengan anggaran pemikiran untuk memberikan kontrol kepada developer mengenai seberapa banyak model berpikir untuk menyeimbangkan performa, latensi, dan biaya untuk aplikasi yang mereka bangun. Kami akan segera memperluas kemampuan ini ke 2.5 Pro.
from google import genai
from google.genai import types
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
model="gemini-2.5-flash-preview-05-20",
contents=prompt,
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_budget=1024,
include_thoughts=True
)
)
)
for part in response.candidates[0].content.parts:
if not part.text:
continue
if part.thought:
print("Thought summary:")
print(part.text)
print()
else:
print("Answer:")
print(part.text)
print()
Kami menambahkan alat eksperimental baru, konteks URL, untuk mengambil lebih banyak konteks dari link yang Anda berikan. Ini dapat digunakan dengan sendirinya atau bersama dengan alat lain seperti Grounding dengan Google Penelusuran. Alat ini merupakan komponen penyusun utama bagi developer yang ingin membuat agen riset versi mereka sendiri dengan Gemini API.
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
response = client.models.generate_content(
model=model_id,
contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
config=GenerateContentConfig(
tools=tools,
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# dapatkan URL yang diambil untuk konteks
print(response.candidates[0].url_context_metadata)
Kami menghadirkan kemampuan kontrol browser Project Mariner ke Gemini API melalui alat penggunaan komputer yang baru. Untuk memudahkan developer menggunakan alat ini, kami memungkinkan pembuatan instance Cloud Run yang dikonfigurasi secara optimal untuk menjalankan agen kontrol browser melalui satu klik dari Google AI Studio. Kami telah memulai pengujian awal dengan perusahaan, seperti Automation Anywhere, UiPath, dan Browserbase. Masukan mereka yang berharga akan sangat penting dalam menyempurnakan kemampuannya untuk rilis eksperimental developer yang lebih luas pada musim panas ini.
Gemini API kini memiliki dukungan yang lebih luas untuk Skema JSON, termasuk kata kunci yang banyak diminta, seperti “$ref” (untuk referensi) dan kata kunci yang memungkinkan pendefinisian struktur seperti tuple (mis., prefixItems).
Gemini API kini mengizinkan URL video YouTube atau upload video untuk ditambahkan ke prompt, sehingga pengguna bisa meringkas, menerjemahkan, atau menganalisis konten video. Dengan update terbaru ini, API mendukung pembuatan klip video, memungkinkan fleksibilitas dalam menganalisis bagian video tertentu. Ini sangat bermanfaat untuk video dengan durasi lebih dari 8 jam. Kami juga menambahkan dukungan untuk frame per detik (FPS) dinamis, yang memungkinkan 60 FPS untuk video, seperti game atau olahraga yang sangat membutuhkan kecepatan, dan 0,1 FPS untuk video yang tidak terlalu mengutamakan kecepatan. Untuk membantu pengguna menghemat token, kami juga memperkenalkan dukungan untuk 3 resolusi video yang berbeda: tinggi (720p), standar (480p), dan rendah (360p).
Arsitektur bertingkat di Live API sekarang mendukung panggilan fungsi asinkron, memastikan percakapan pengguna selalu lancar dan tidak terganggu. Ini berarti agen Langsung Anda bisa terus menghasilkan respons meskipun sedang sibuk menjalankan fungsi di latar belakang, cukup dengan menambahkan kolom perilaku pada definisi fungsi dan mengaturnya ke NON-BLOCKING. Baca selengkapnya tentang hal ini dalam dokumentasi developer Gemini API.
Kami juga sedang menguji API baru, yang memungkinkan Anda dengan mudah menumpuk permintaan Anda dan mendapatkannya kembali dengan waktu penyelesaian maksimal 24 jam. API ini akan hadir dengan harga setengah dari API interaktif dan dengan batas tarif yang jauh lebih tinggi. Kami berharap dapat meluncurkannya secara lebih luas pada musim panas ini.
Demikianlah rangkuman I/O untuk tahun ini! Dengan Gemini API dan Google AI Studio, Anda bisa mengubah ide Anda menjadi kenyataan, baik itu membangun agen AI percakapan dengan audio yang terdengar natural atau mengembangkan alat untuk menganalisis dan membuat kode. Seperti biasa, lihat dokumen developer Gemini API untuk semua contoh kode terbaru dan lainnya.
Jelajahi pengumuman ini dan semua update Google I/O 2025 di io.google.