Gemini 2.0: Naikkan Level Aplikasi Anda dengan Interaksi Multimodal Real-Time

DES 23, 2024
Ivan Solovyev Product Manager

Komunikasi antar manusia secara natural bersifat multimodal, yang melibatkan perpaduan antara kata yang diucapkan, isyarat visual, dan penyesuaian secara real-time. Dengan Multimodal Live API untuk Gemini, kami telah mencapai level kenaturalan yang sama dalam interaksi manusia-komputer. Bayangkan percakapan AI yang terasa lebih interaktif, di mana Anda dapat menggunakan input visual dan menerima solusi yang sesuai dengan konteks secara real-time, yang menggabungkan teks, audio, dan video dengan mulus. Multimodal Live API untuk Gemini 2.0 memungkinkan jenis interaksi ini dan tersedia di Google AI Studio dan Gemini API. Teknologi ini memungkinkan Anda membangun aplikasi yang mampu merespons dunia saat peristiwa terjadi, dengan memanfaatkan data real-time.


Cara kerjanya

Multimodal Live API adalah API stateful yang memanfaatkan WebSockets untuk memfasilitasi komunikasi server-ke-server dengan latensi rendah. API ini mendukung alat seperti panggilan fungsi, eksekusi kode, landasan penelusuran, dan kombinasi beberapa alat dalam satu permintaan, sehingga memungkinkan respons yang komprehensif tanpa memerlukan banyak prompt. Ini memungkinkan developer menciptakan interaksi AI yang lebih efisien dan kompleks.

Fitur utama Multimodal Live API meliputi:

  • Streaming dua arah: Memungkinkan pengiriman dan penerimaan data teks, audio, dan video secara bersamaan.

  • Latensi kurang dari satu detik: Menghasilkan output token pertama dalam 600 milidetik yang selaras dengan waktu reaksi ekspektasi manusia untuk respons yang mulus.

  • Percakapan suara yang natural: Mendukung interaksi suara seperti manusia, termasuk kemampuan untuk menginterupsi dan fitur seperti deteksi aktivitas suara, memungkinkan dialog yang lebih mengalir dengan AI.

  • Pemahaman video: Memberikan kemampuan untuk memproses dan memahami input video, memungkinkan model menggabungkan konteks audio dan video untuk respons yang lebih terinformasi dan bernuansa. Kesadaran kontekstual ini memperkaya interaksi dengan sentuhan yang berbeda.

  • Integrasi alat: Memfasilitasi integrasi beberapa alat dalam satu panggilan API, memperluas kemampuan API, dan memungkinkannya melakukan tindakan atas nama pengguna untuk menyelesaikan tugas yang kompleks.

  • Suara yang dapat diatur: Menawarkan lima pilihan suara berbeda dengan level ekspresif yang tinggi, sehingga mampu menyampaikan spektrum emosi secara luas. Ini memungkinkan pengalaman pengguna yang lebih dipersonalisasi dan menarik.


Multimodal live streaming sedang beraksi

Multimodal Live API memungkinkan berbagai aplikasi interaktif secara real-time. Berikut adalah beberapa contoh kasus penggunaan ketika API ini bisa diterapkan secara efektif:

  • Asisten Virtual Real-Time: Bayangkan seorang asisten yang mengamati layar Anda dan menawarkan saran yang disesuaikan secara real-time, memberi tahu Anda di mana menemukan apa yang Anda cari atau melakukan tindakan atas nama Anda.

  • Alat Edukasi Adaptif: API ini mendukung pengembangan aplikasi edukasi yang bisa beradaptasi dengan kecepatan belajar siswa, misalnya, aplikasi pembelajaran bahasa bisa menyesuaikan tingkat kesulitan latihan berdasarkan pelafalan dan pemahaman siswa secara real-time.

Untuk membantu Anda menjelajahi fungsionalitas baru ini dan memulai eksplorasi Anda sendiri, kami telah membuat banyak aplikasi demo yang menampilkan kemampuan streaming secara real-time:

Aplikasi web starter untuk input streaming mikrofon, kamera, atau layar. Dasar yang sempurna untuk kreativitas Anda:

Link to Youtube Video (visible only when JS is disabled)

Kode lengkap dan panduan memulai tersedia di Github: https://github.com/google-gemini/multimodal-live-api-web-console.


Chat dengan Gemini tentang cuaca. Pilih lokasi dan minta karakter berteknologi Gemini menjelaskan cuaca di lokasi tersebut. Anda bisa menyela dan mengajukan pertanyaan lanjutan kapan saja.

Link to Youtube Video (visible only when JS is disabled)

Memulai Multimodal Live API

Siap untuk terjun? Lakukan eksperimen dengan Multimodal Live Streaming secara langsung di Google AI Studio untuk mendapatkan pengalaman praktis. Atau, untuk memperoleh kontrol penuh, lihat dokumentasi terperinci dan contoh kode untuk mulai membangun dengan API sekarang juga.

Kami juga bermitra dengan Daily, untuk menyediakan integrasi yang mulus melalui framework pipecat mereka, sehingga Anda bisa menambahkan kemampuan real-time ke dalam aplikasi Anda dengan mudah. Daily.co, pencipta framework pipecat, adalah platform API video dan audio yang memudahkan developer menambahkan streaming video dan audio secara real-time ke situs dan aplikasinya. Lihat panduan integrasi Daily untuk mulai membangun.

Kami sangat antusias menantikan kreasi Anda - bagikan masukan dan aplikasi luar biasa yang Anda bangun dengan API baru ini!