Mencapai interaksi real-time: Membangun dengan Live API

23 APRIL 2025
Ivan Solovyev Product Manager
Shrestha Basu Mallick Group Product Manager Gemini API

Live API melengkapi developer dengan alat penting untuk membuat aplikasi dan agen cerdas yang mampu memproses streaming audio, video, dan teks dengan latensi yang sangat rendah. Kecepatan ini sangatlah penting untuk menciptakan pengalaman yang benar-benar interaktif, membuka pintu bagi solusi dukungan pelanggan, platform edukasi, dan layanan pemantauan real-time.

Link to Youtube Video (visible only when JS is disabled)

Baru-baru ini kami mengumumkan peluncuran pratinjau Live API untuk model Gemini – sebuah langkah maju signifikan yang memungkinkan developer membangun aplikasi real-time yang kuat dan skalabel. Cobalah fitur terbaru sekarang juga menggunakan Gemini API di Google AI Studio dan Vertex AI.


Yang baru di Live API

Sejak peluncuran eksperimental kami pada bulan Desember, kami mendengarkan masukan Anda dengan saksama dan telah memasukkan fitur serta kemampuan baru untuk membuat Live API siap produksi. Temukan detail selengkapnya dalam dokumentasi Live API:

Manajemen & keandalan sesi yang ditingkatkan

  • Sesi yang lebih lama melalui kompresi konteks: Aktifkan interaksi yang diperpanjang melampaui batas waktu sebelumnya. Konfigurasi kompresi jendela konteks dengan mekanisme jendela geser untuk mengelola panjang konteks secara otomatis, mencegah pemutusan mendadak karena batas konteks.

  • Melanjutkan kembali sesi: Menjaga sesi tetap aktif saat terjadi gangguan jaringan sementara. Sekarang Live API mendukung penyimpanan status sesi sisi server (hingga 24 jam) dan menyediakan handle (session_resumption) untuk terhubung kembali dan melanjutkan dari posisi terakhir sesi Anda.

  • Notifikasi pemutusan koneksi secara mulus: Terima pesan server GoAway yang menunjukkan kapan koneksi akan ditutup, memungkinkan penanganan secara mulus sebelum pemutusan dilakukan.

  • Cakupan giliran yang dapat dikonfigurasi: Pilih apakah Live API memproses semua input audio dan video secara terus menerus atau hanya menangkapnya ketika pengguna akhir terdeteksi berbicara.

  • Resolusi media yang dapat dikonfigurasi: Optimalkan kualitas atau penggunaan token dengan memilih resolusi untuk media input.


Lebih banyak kontrol atas dinamika interaksi

  • Deteksi aktivitas suara (VAD) yang dapat dikonfigurasi: Pilih tingkat sensitivitas atau nonaktifkan VAD otomatis sepenuhnya dan gunakan acara klien baru (activityStart, activityEnd) untuk kontrol giliran manual.

  • Penanganan interupsi yang dapat dikonfigurasi: Putuskan apakah input pengguna akan mengganggu respons model.

  • Setelan sesi yang fleksibel: Modifikasi instruksi sistem dan konfigurasi penyiapan lainnya kapan saja selama sesi berlangsung.


Output & fitur yang lebih kaya

  • Opsi suara & bahasa yang diperluas: Pilih dari dua suara baru dan 30 bahasa baru untuk output audio. Bahasa output sekarang dapat dikonfigurasi di dalam speechConfig.

  • Streaming teks: Terima respons teks secara bertahap sewaktu mereka dibuat, sehingga dapat ditampilkan lebih cepat kepada pengguna.

  • Laporan penggunaan token: Dapatkan insight mengenai penggunaan dengan jumlah token terperinci yang disediakan dalam kolom usageMetadata pesan server, dikelompokkan berdasarkan modalitas dan fase respons/prompt.


Lihat Live API beraksi: aplikasi dunia nyata

Untuk menginspirasi project Anda yang berikutnya, kami akan menampilkan developer yang sudah memanfaatkan kekuatan Live API dalam aplikasi mereka:


Daily.co

Daily mengintegrasikan dukungan Live API ke dalam Pipecat Open Source SDK untuk Web, Android, iOS, dan C++.

Dengan menggunakan kekuatan Live API, Pipecat Daily menciptakan game tebak kata berbasis suara – Word Wrangler. Uji kemampuan deskripsi Anda dalam game tebak kata klasik berteknologi AI ini dan lihat bagaimana Anda bisa membuatnya sendiri!

Live API - Word Wrangler

LiveKit

LiveKit mengintegrasikan dukungan Live API ke dalam LiveKit Agents. Framework untuk membangun agen AI suara ini menyediakan platform open source sepenuhnya untuk membuat aplikasi agentik sisi server.

"Sebelum Live API, tidak ada LLM lain yang menawarkan antarmuka developer yang dapat secara langsung menyerap video streaming.”
Russell d’Sa, CEO

Lihat demo ketika mereka membuat kopilot AI yang bisa menjelajahi internet bersama Anda sembari berbagi pemikiran tentang hal-hal yang bisa dilihatnya secara real-time.


Bubba.ai

Hey Bubba adalah aplikasi AI agentik berbasis suara yang secara khusus dikembangkan untuk pengemudi truk. Memanfaatkan Live API, aplikasi ini memungkinkan komunikasi suara multi-bahasa yang mulus, sehingga pengemudi dapat mengoperasikannya handsfree. Fungsionalitas utamanya meliputi:

  • Mencari muatan barang dan memberikan perinciannya.

  • Memulai panggilan ke broker/pengirim.

  • Melakukan negosiasi tarif pengiriman berdasarkan data pasar.

  • Memesan muatan dan memverifikasi konfirmasi tarif.

  • Menemukan dan memesan parkir truk, termasuk menelepon hotel untuk mengonfirmasi ketersediaan.

  • Menjadwalkan janji temu dengan pengirim dan penerima.

Live API mendukung interaksi pengemudi (memanfaatkan panggilan fungsi dan caching konteks untuk kueri, seperti penjemputan di masa mendatang) dan kemampuan Bubba berinteraksi selama panggilan telepon untuk melakukan negosiasi dan pemesanan. Ini menjadikan Hey Bubba sebagai alat AI yang komprehensif untuk sektor pekerjaan terbesar dan paling beragam di AS.

Link to Youtube Video (visible only when JS is disabled)

Mulailah membangun sekarang juga

Live API siap mendukung aplikasi suara real time Anda yang berikutnya, untuk memulai:

Selamat membangun!