Komunikasi antar manusia secara natural bersifat multimodal, yang melibatkan perpaduan antara kata yang diucapkan, isyarat visual, dan penyesuaian secara real-time. Dengan Multimodal Live API untuk Gemini, kami telah mencapai level kenaturalan yang sama dalam interaksi manusia-komputer. Bayangkan percakapan AI yang terasa lebih interaktif, di mana Anda dapat menggunakan input visual dan menerima solusi yang sesuai dengan konteks secara real-time, yang menggabungkan teks, audio, dan video dengan mulus. Multimodal Live API untuk Gemini 2.0 memungkinkan jenis interaksi ini dan tersedia di Google AI Studio dan Gemini API. Teknologi ini memungkinkan Anda membangun aplikasi yang mampu merespons dunia saat peristiwa terjadi, dengan memanfaatkan data real-time.
Multimodal Live API adalah API stateful yang memanfaatkan WebSockets untuk memfasilitasi komunikasi server-ke-server dengan latensi rendah. API ini mendukung alat seperti panggilan fungsi, eksekusi kode, landasan penelusuran, dan kombinasi beberapa alat dalam satu permintaan, sehingga memungkinkan respons yang komprehensif tanpa memerlukan banyak prompt. Ini memungkinkan developer menciptakan interaksi AI yang lebih efisien dan kompleks.
Fitur utama Multimodal Live API meliputi:
Multimodal Live API memungkinkan berbagai aplikasi interaktif secara real-time. Berikut adalah beberapa contoh kasus penggunaan ketika API ini bisa diterapkan secara efektif:
Untuk membantu Anda menjelajahi fungsionalitas baru ini dan memulai eksplorasi Anda sendiri, kami telah membuat banyak aplikasi demo yang menampilkan kemampuan streaming secara real-time:
Aplikasi web starter untuk input streaming mikrofon, kamera, atau layar. Dasar yang sempurna untuk kreativitas Anda:
Link to Youtube Video (visible only when JS is disabled)
Kode lengkap dan panduan memulai tersedia di Github: https://github.com/google-gemini/multimodal-live-api-web-console.
Chat dengan Gemini tentang cuaca. Pilih lokasi dan minta karakter berteknologi Gemini menjelaskan cuaca di lokasi tersebut. Anda bisa menyela dan mengajukan pertanyaan lanjutan kapan saja.
Link to Youtube Video (visible only when JS is disabled)
Siap untuk terjun? Lakukan eksperimen dengan Multimodal Live Streaming secara langsung di Google AI Studio untuk mendapatkan pengalaman praktis. Atau, untuk memperoleh kontrol penuh, lihat dokumentasi terperinci dan contoh kode untuk mulai membangun dengan API sekarang juga.
Kami juga bermitra dengan Daily, untuk menyediakan integrasi yang mulus melalui framework pipecat mereka, sehingga Anda bisa menambahkan kemampuan real-time ke dalam aplikasi Anda dengan mudah. Daily.co, pencipta framework pipecat, adalah platform API video dan audio yang memudahkan developer menambahkan streaming video dan audio secara real-time ke situs dan aplikasinya. Lihat panduan integrasi Daily untuk mulai membangun.
Kami sangat antusias menantikan kreasi Anda - bagikan masukan dan aplikasi luar biasa yang Anda bangun dengan API baru ini!