Mari kita coba sebuah eksperimen. Kami akan menunjukkan gambar ini kepada model multimodal Gemini dan memintanya untuk mendeskripsikan apa yang dilihatnya:
Katakan apa yang Anda lihat
Gemini: Saya melihat tangan kanan seseorang. Tangan itu terbuka dengan jari-jari terbentang.
Oke, mari kita coba yang ini:
Gemini: Seseorang mengetuk pintu kayu.
Bagaimana dengan ini?
Gemini: Saya melihat tangan dengan dua jari terjulur, yang merupakan simbol umum untuk angka dua.
Namun tunggu … bagaimana jika kita meminta Gemini untuk menganalisis semua gambar ini bersama-sama?
Menurutmu apa yang aku lakukan? Petunjuk: ini adalah permainan.
Gemini: Anda bermain batu, kertas, gunting.
Bagus. Apa lagi yang bisa kita coba? Mari kita lihat jika Gemini dapat melihat pola ini:
Saya bermain batu gunting kertas. Apakah Anda melihat sebuah pola dalam permainan saya?
Gemini: Anda bergantian antara batu dan gunting.
Bagus, ia melihat polanya! Tapi apakah Gemini benar-benar tahu cara memainkan game ini? Mari kita coba bertanya:
Hmm ... apakah menurutmu ini adalah strategi yang bagus?
Gemini: Tidak, ini bukanlah strategi yang bagus. Lawan Anda akan dengan cepat mempelajari polanya dan akan selalu menang. Anda harus mencoba untuk mengacak pilihan Anda.
Saran yang bagus, Gemini! Oke, untuk yang terakhir, mari kita uji kemampuan penalaran multimodal Anda. Ini pertanyaannya:
Ini adalah pesan rahasia. Apa isinya?
Dapatkah Anda menebaknya? Kami telah meminta Gemini untuk memecahkannya, tetapi kami tidak akan membocorkan jawabannya di postingan ini. 🙂
Semua yang baru saja kita lakukan adalah contoh dari “multimodal prompting.” Pada dasarnya, kami memberikan Gemini kombinasi modalitas yang berbeda — dalam kasus ini, gambar dan teks — dan meminta Gemini merespons dengan memprediksi apa yang akan terjadi berikutnya. Kemampuan Gemini untuk menggabungkan mode-mode ini secara mulus memungkinkan berbagai kemungkinan baru untuk hal-hal yang bisa Anda lakukan.
Dalam postingan ini, kami akan menjelajahi beberapa pendekatan prompt yang kami gunakan dalam video demo Menjajal Gemini. Kami akan segera meluncurkan Gemini agar bisa dicoba semua orang di Google AI Studio, alat developer berbasis web gratis kami, di sini Anda bisa mencoba prompt multimodal dengan Gemini. Kami berharap ide dan panduan prompt awal ini dapat membantu menginspirasi Anda untuk mulai mengeksplorasi ide Anda.
Link to Youtube Video (visible only when JS is disabled)
Logika dan teka-teki adalah cara yang menyenangkan untuk menguji Gemini. Mari kita coba permainan yang membutuhkan penalaran spasial dari kiri ke kanan dan pengetahuan tentang tata surya kita:
Apakah ini urutan yang benar? Pertimbangkan jarak dari matahari dan jelaskan alasan Anda.
Gemini: Tidak, urutan yang benar adalah Matahari, Bumi, Saturnus. Matahari adalah yang terdekat dengan pusat tata surya, diikuti oleh Bumi, lalu Saturnus.
Bagus! Pertanyaan berikutnya, terinspirasi dari pinewood derby challenge:
Manakah mobil yang lebih aerodinamis? Yang sebelah kiri atau kanan? Jelaskan alasannya, menggunakan detail visual secara spesifik.
Gemini: Mobil di sebelah kanan lebih aerodinamis. Mobilnya memiliki profil yang lebih rendah dan bentuknya lebih landai. Mobil di sebelah kiri memiliki profil yang lebih tinggi dan bentuknya mengotak, sehingga kurang aerodinamis.
Berikutnya, bagaimana jika kita menunjukkan kepada Gemini sebuah urutan gambar? Mari kita lihat, kita bisa menunjukkan beberapa bingkai foto permainan tebak gambar dan meminta Gemini untuk menebak filmnya:
Coba tebak film apa yang saya peragakan.
Gemini: The Matrix
Bagus! Tapi khususnya bagian yang mana? Lihatlah gerakan tubuhku.
Gemini: Bagian ketika Neo menghindari peluru.
Mengeksplorasi urutan gambar membuat Anda dapat menggali bagaimana Gemini melakukan penalaran dari waktu ke waktu. Mari kita coba trik sulap klasik.
Jelaskan apa yang saya lakukan.
Gemini: Anda memegang koin di tangan kanan.
Menurut Anda, di mana koin itu berada?
Gemini: Koin ada di tangan kanan Anda.
Tentu saja, itu adalah jawaban yang logis mengingat apa yang dilihatnya. Namun, mari kita lakukan sedikit trik saat kita memperlihatkan gambar berikut ini kepada Gemini...
Lihat di sini, apa yang terjadi?
Gemini: Koinnya hilang.
Gemini menyadari bahwa koinnya hilang. Namun bisakah ia menyimpulkan tentang apa yang mungkin telah terjadi?
Simpulkan apa yang mungkin telah terjadi, langkah demi langkah, dimulai dari gambar pertama.
Gemini:
Anda mulai dengan koin di tangan kanan.
Anda kemudian membuat gerakan dengan tangan Anda, dan koin itu menghilang.
3. Anda lalu menunjukkan bahwa koin tersebut hilang.
Gemini memanfaatkan seluruh konteks percakapan ini – baik teks maupun gambar – untuk menyimpulkan jawabannya. Terakhir, mari kita bertanya:
Bisakah Anda menjelaskan bagaimana koinnya menghilang?
Gemini: Koin itu disembunyikan di telapak tangan.
Gemini membuat tebakan yang sangat bagus! Namun, kami tidak akan membeberkan rahasianya 🙂.
Mari kita coba trik yang membutuhkan memori dan logika: permainan klasik mengacak bola dan gelas. Untuk yang satu ini, kami akan membaginya ke dalam beberapa langkah untuk Gemini. Pertama, mari kita tetapkan dasarnya dengan petunjuk ini:
Petunjuk: Terdapat tiga gelas pada posisi 1 (kiri), posisi 2 (tengah), posisi 3 (kanan).
Perhatikan bagaimana kami menciptakan format sederhana untuk mengingat letak bola dengan "kosong, kosong, bola." Berikutnya, mari kita tunjukkan kepada Gemini dua contoh gerakan:
Gambar:
Tukar: 2 dan 3
Keadaan saat ini: kosong, bola, kosong
Gambar:
Tukar: 1 dan 2
Keadaan saat ini: bola, kosong, kosong
Dalam dua contoh gerakan ini, kita menunjukkan seperti apa penukaran itu, dan bagaimana cara mengupdate posisi bola. Sekarang, mari kita lihat apakah Gemini dapat menggeneralisasi penukaran yang belum pernah dilihatnya:
Gambar:
Tukar:
Inilah respons Gemini:
1 dan 3
Keadaan saat ini: kosong, kosong, bola
Gemini berhasil! Ia melihat gambar-gambar ini dan dengan tepat menyimpulkan bahwa gelas 1 dan 3 ditukar. Dan ia menalar dengan benar tentang cara mengupdate posisi bola. Mari kita bertanya:
Beri tahu saya di mana bola itu dan rangkum bagaimana bolanya sampai ke sana, dalam bentuk paragraf.
Gemini: Bolanya ada di gelas 3.
Dimulai dengan bola di gelas 3, penukaran pertama adalah gelas 2 dan 3. Ini menempatkan bola di gelas 2. Penukaran kedua adalah gelas 1 dan 2. Ini menempatkan bola di gelas 1. Penukaran ketiga adalah gelas 1 dan 3. Ini menempatkan bola di gelas 3.
Gemini tidak hanya menjawab dengan benar, tetapi juga merangkum riwayat permainan dengan akurat. Tentu saja, tantangan ini tidak selalu berhasil. Terkadang langkah tipuan (saat Anda menukar dua gelas kosong) membuatnya bingung, tetapi terkadang juga berhasil. Namun, prompt sederhana seperti ini membuat pengujian Gemini sangat menyenangkan. Anda bisa mengubah variabel dalam prompt Anda, termasuk urutan penukaran, dan melihat bagaimana hasilnya.
Jika Anda ingin menggunakan Gemini di aplikasi Anda sendiri, Anda pasti ingin Gemini dapat terhubung ke alat lain. Mari kita coba ide sederhana ini saat Gemini perlu menggabungkan multimodalitas dengan penggunaan alat: menggambar untuk menelusuri musik.
Langkah 1. Lihat gambar ini, jelaskan semua yang ada di dalamnya, dan buatlah ide yang menyenangkan dan spesifik untuk genre, mood, atau soundtrack musik yang bagus.
Langkah 2. Masukkan kueri penelusuran di formulir: "Telusuri [masukkan kueri]"
Gemini:
Gambar ini adalah gitar, drum, dan amplifier. Ada juga pohon palem. Suasananya menyenangkan, ceria, dan tropis. Genrenya adalah reggae. Soundtrack ini bisa digunakan untuk film atau acara TV yang berlatarkan lokasi tropis.
Telusuri "Musik reggae untuk liburan tropis"
Bagus! Gemini memberikan alasan tentang apa yang dilihatnya kemudian menghasilkan kueri penelusuran yang bisa Anda uraikan untuk melakukan penelusuran. Gemini bertindak seperti penerjemah untuk Anda – tetapi alih-alih menerjemahkan antar bahasa, Gemini menerjemahkan modalitas – dari gambar ke musik dalam kasus ini. Dengan multimodal prompting, Anda dapat menggunakan Gemini untuk menciptakan terjemahan Anda sendiri yang benar-benar baru di antara berbagai input dan output.
Bagaimana jika kita mencoba menggunakan Gemini untuk membuat prototipe game multimodal dengan cepat? Inilah idenya: sebuah game tebak-tebakan geografi yang mengharuskan Anda menunjuk peta untuk menebak. Mari kita mulai dengan meminta Gemini untuk memberikan ide utamanya:
Petunjuk: Ayo main game. Pikirkan sebuah negara dan beri aku petunjuk. Petunjuknya harus cukup spesifik sehingga hanya ada satu negara yang benar. Saya akan mencoba menunjuk negaranya di peta.
Berikutnya, mari kita beri Gemini contoh gameplay-nya, untuk menunjukkan bagaimana kita menginginkan Gemini menangani jawaban yang salah dan benar:
Negara: Negara ini adalah pulau besar yang sebagian besar wilayahnya tertutup es.
(Jawaban: Greenland)
Tebakan:
Saya menunjuk negara Kanada *salah*
Tebakan:
Saya menunjuk Greenland *benar*
Mari kita coba dan minta Gemini untuk memberikan petunjuk:
Petunjuk:
Negara ini dikenal dengan satwa liarnya yang unik, termasuk kanguru dan koala. (Jawaban: Australia)
Oke, itu petunjuk yang bagus. Mari kita uji apakah cara ini akan berhasil. Agar lebih seru, mari kita coba menunjuk tempat yang salah terlebih dahulu:
Tebakan:
Saya menunjuk negara Brasil *salah*
Bagus! Gemini melihat gambarku dan tahu bahwa aku menunjuk Brasil, dan dengan tepat menilai bahwa ini salah. Sekarang mari kita tunjuk tempat yang benar di peta:
Saya menunjuk negara Australia *benar*
Bagus! Pada dasarnya, kami telah mengajarkan logika game kepada Gemini hanya dengan mencontohkannya. Anda juga akan melihat bahwa itu digeneralisasi dari tangan yang diilustrasikan dalam contoh.
Tentu saja, untuk mewujudkan ide game, Anda harus menulis beberapa kode yang dapat dieksekusi. Mari kita lihat apakah Gemini bisa membuat penghitung mundur sederhana untuk sebuah game, tetapi dengan beberapa sentuhan seru:
Implementasikan timer sederhana dengan HTML/CSS/Javascript. Gunakan font sans serif dan mode gelap. Mulai dari 10 detik dan mulailah menghitung mundur. Saat mencapai angka nol, ganti timer dengan emoji acak yang identik dengan kegembiraan dan motivasi! Kemudian kembali ke timer pada posisi 10 detik dan mulai menghitung mundur lagi.
Hanya dengan satu instruksi ini, Gemini memberi kita timer yang berfungsi sesuai dengan yang kita minta:
Bagian favoritku adalah menelusuri kode sumber Gemini untuk menemukan deretan emoji motivasi yang dipilihnya untuk saya:
const emojis = ['🚀', '⚡️', '🎉', '🎊', '🥳', '🤩', '✨']
;
Dalam postingan ini, kami memberikan input kepada Gemini, dan meminta Gemini untuk membuat prediksi tentang apa yang akan terjadi berikutnya. Pada dasarnya inilah yang dimaksud dengan prompting. Dan input kami berupa multimodal – gambar dan teks, digabungkan.
Namun sejauh ini kami hanya menunjukkan Gemini yang merespons dalam bentuk teks. Mungkin Anda bertanya-tanya, bisakah Gemini juga merespons dengan kombinasi gambar dan teks? Bisa! Ini adalah kemampuan Gemini yang disebut “interleaved text and image generation.” Meskipun fitur ini tidak tersedia pada Gemini versi pertama yang bisa dicoba oleh orang-orang sekarang, kami berharap bisa segera meluncurkannya. Berikut adalah gambaran sekilas tentang hal-hal yang dapat dilakukan.
Mari kita lihat apakah kita bisa menggunakan Gemini untuk memberikan inspirasi kreatif sehari-hari. Dan mari kita coba pada domain yang membutuhkan sedikit penalaran multimodal ... merajut! 🧶. Mirip dengan game peta di atas, mari kita berikan satu contoh interaksi:
Beri saya tiga ide untuk kreasi rajutan yang bisa saya buat dengan dua warna ini:
Warna: Saya melihat benang biru dan kuning.
Ide 1: Bagaimana kalau seekor anjing lucu dengan satu telinga berwarna kuning?
Gambar 1:
Ide 2: Atau bagaimana kalau ubur-ubur dengan beberapa tentakel kuning?
Gambar 2:
Ide 3: Atau bagaimana kalau seekor kucing biru dengan hidung kuning?
Gambar 3:
Kami pada dasarnya mengajari Gemini tentang bagaimana kami menginginkan setiap interaksi berjalan: "Saya akan mengambil foto dua bola benang, dan saya berharap kamu (Gemini) bisa memberikan ide untuk sesuatu yang bisa saya buat, dan menampilkan gambarnya."
Sekarang, mari kita tunjukkan sepasang warna benang baru yang belum pernah dilihatnya, dan lihat apakah ia bisa melakukan generalisasi:
Beri saya tiga ide untuk kreasi rajutan yang bisa saya buat dengan dua warna ini:
Gemini:
Warna: Saya melihat benang biru dan merah muda.
Idea 1: Bagaimana kalau babi dengan telinga biru?
Gambar 1:
Ide 2: Atau gurita dengan tentakel berwarna merah muda dan biru?
Gambar 2:
Ide 3: Atau kelinci dengan hidung berwarna merah muda?
Gambar 3:
Bagus! Gemini dengan tepat memberikan penalaran tentang warna-warna baru ("Saya melihat benang biru dan merah muda") dan menampilkan ide serta gambar ini dalam satu output teks dan gambar secara bergantian.
Apa yang dilakukan Gemini di sini pada dasarnya berbeda dari model teks-ke-gambar saat ini. Ia tidak hanya meneruskan instruksi ke model teks-ke-gambar yang terpisah. Ia melihat gambar asli benang di atas meja kayu saya, benar-benar melakukan penalaran multimodal tentang teks dan gambar saya secara bersamaan.
Kami harap Anda merasakan manfaat dari panduan pemula ini untuk memahami apa saja yang bisa dilakukan dengan Gemini. Kami sangat bersemangat untuk segera meluncurkannya ke lebih banyak orang sehingga Anda bisa mengeksplorasi ide-ide Anda sendiri melalui prompting. Ikuti terus perkembangannya!