Bagaimana itu Dibuat: Berinteraksi dengan Gemini melalui multimodal prompting

DES 06, 2023
Alexander Chen Creative Director

Mari kita coba sebuah eksperimen. Kami akan menunjukkan gambar ini kepada model multimodal Gemini dan memintanya untuk mendeskripsikan apa yang dilihatnya:

hand_paper_2

Katakan apa yang Anda lihat

Gemini: Saya melihat tangan kanan seseorang. Tangan itu terbuka dengan jari-jari terbentang.

Oke, mari kita coba yang ini:

hand_rock_2

Gemini: Seseorang mengetuk pintu kayu.

Bagaimana dengan ini?

hand_scissors_1

Gemini: Saya melihat tangan dengan dua jari terjulur, yang merupakan simbol umum untuk angka dua.

Namun tunggu … bagaimana jika kita meminta Gemini untuk menganalisis semua gambar ini bersama-sama?

hand_rock_paper_scissors (1)

Menurutmu apa yang aku lakukan? Petunjuk: ini adalah permainan.

Gemini: Anda bermain batu, kertas, gunting.

Bagus. Apa lagi yang bisa kita coba? Mari kita lihat jika Gemini dapat melihat pola ini:

hand_rock_paper_scissors_alternating (1)

Saya bermain batu gunting kertas. Apakah Anda melihat sebuah pola dalam permainan saya?

Gemini: Anda bergantian antara batu dan gunting.

Bagus, ia melihat polanya! Tapi apakah Gemini benar-benar tahu cara memainkan game ini? Mari kita coba bertanya:

Hmm ... apakah menurutmu ini adalah strategi yang bagus?

Gemini: Tidak, ini bukanlah strategi yang bagus. Lawan Anda akan dengan cepat mempelajari polanya dan akan selalu menang. Anda harus mencoba untuk mengacak pilihan Anda.

Saran yang bagus, Gemini! Oke, untuk yang terakhir, mari kita uji kemampuan penalaran multimodal Anda. Ini pertanyaannya:

Ini adalah pesan rahasia. Apa isinya?

secret_message_white_bg

Dapatkah Anda menebaknya? Kami telah meminta Gemini untuk memecahkannya, tetapi kami tidak akan membocorkan jawabannya di postingan ini. 🙂

Apa yang dimaksud dengan multimodal prompting?

Semua yang baru saja kita lakukan adalah contoh dari “multimodal prompting.” Pada dasarnya, kami memberikan Gemini kombinasi modalitas yang berbeda — dalam kasus ini, gambar dan teks — dan meminta Gemini merespons dengan memprediksi apa yang akan terjadi berikutnya. Kemampuan Gemini untuk menggabungkan mode-mode ini secara mulus memungkinkan berbagai kemungkinan baru untuk hal-hal yang bisa Anda lakukan.

Dalam postingan ini, kami akan menjelajahi beberapa pendekatan prompt yang kami gunakan dalam video demo Menjajal Gemini. Kami akan segera meluncurkan Gemini agar bisa dicoba semua orang di Google AI Studio, alat developer berbasis web gratis kami, di sini Anda bisa mencoba prompt multimodal dengan Gemini. Kami berharap ide dan panduan prompt awal ini dapat membantu menginspirasi Anda untuk mulai mengeksplorasi ide Anda.

Link to Youtube Video (visible only when JS is disabled)

🧮 Penalaran dan logika spasial

Logika dan teka-teki adalah cara yang menyenangkan untuk menguji Gemini. Mari kita coba permainan yang membutuhkan penalaran spasial dari kiri ke kanan dan pengetahuan tentang tata surya kita:

planets

Apakah ini urutan yang benar? Pertimbangkan jarak dari matahari dan jelaskan alasan Anda.

Gemini: Tidak, urutan yang benar adalah Matahari, Bumi, Saturnus. Matahari adalah yang terdekat dengan pusat tata surya, diikuti oleh Bumi, lalu Saturnus.

Bagus! Pertanyaan berikutnya, terinspirasi dari pinewood derby challenge:

pinewood_derby_cars

Manakah mobil yang lebih aerodinamis? Yang sebelah kiri atau kanan? Jelaskan alasannya, menggunakan detail visual secara spesifik.

Gemini: Mobil di sebelah kanan lebih aerodinamis. Mobilnya memiliki profil yang lebih rendah dan bentuknya lebih landai. Mobil di sebelah kiri memiliki profil yang lebih tinggi dan bentuknya mengotak, sehingga kurang aerodinamis.

Urutan gambar

Berikutnya, bagaimana jika kita menunjukkan kepada Gemini sebuah urutan gambar? Mari kita lihat, kita bisa menunjukkan beberapa bingkai foto permainan tebak gambar dan meminta Gemini untuk menebak filmnya:

matrix_charades

Coba tebak film apa yang saya peragakan.

Gemini: The Matrix

Bagus! Tapi khususnya bagian yang mana? Lihatlah gerakan tubuhku.
Gemini: Bagian ketika Neo menghindari peluru.

🪄 Trik sulap

Mengeksplorasi urutan gambar membuat Anda dapat menggali bagaimana Gemini melakukan penalaran dari waktu ke waktu. Mari kita coba trik sulap klasik.

coin_trick_1

Jelaskan apa yang saya lakukan.

Gemini: Anda memegang koin di tangan kanan.

coin_trick_1b
coin_trick_2

Menurut Anda, di mana koin itu berada?

Gemini: Koin ada di tangan kanan Anda.

Tentu saja, itu adalah jawaban yang logis mengingat apa yang dilihatnya. Namun, mari kita lakukan sedikit trik saat kita memperlihatkan gambar berikut ini kepada Gemini...

coin_trick_3

Lihat di sini, apa yang terjadi?

Gemini: Koinnya hilang.

Gemini menyadari bahwa koinnya hilang. Namun bisakah ia menyimpulkan tentang apa yang mungkin telah terjadi?

Simpulkan apa yang mungkin telah terjadi, langkah demi langkah, dimulai dari gambar pertama.

Gemini: 

  1. Anda mulai dengan koin di tangan kanan.
  2. Anda kemudian membuat gerakan dengan tangan Anda, dan koin itu menghilang.
    3. Anda lalu menunjukkan bahwa koin tersebut hilang.

Gemini memanfaatkan seluruh konteks percakapan ini – baik teks maupun gambar – untuk menyimpulkan jawabannya. Terakhir, mari kita bertanya:

Bisakah Anda menjelaskan bagaimana koinnya menghilang?

Gemini: Koin itu disembunyikan di telapak tangan.

Gemini membuat tebakan yang sangat bagus! Namun, kami tidak akan membeberkan rahasianya 🙂.

🔀 Mengacak gelas

Mari kita coba trik yang membutuhkan memori dan logika: permainan klasik mengacak bola dan gelas. Untuk yang satu ini, kami akan membaginya ke dalam beberapa langkah untuk Gemini. Pertama, mari kita tetapkan dasarnya dengan petunjuk ini:

Petunjuk: Terdapat tiga gelas pada posisi 1 (kiri), posisi 2 (tengah), posisi 3 (kanan).

Perhatikan bagaimana kami menciptakan format sederhana untuk mengingat letak bola dengan "kosong, kosong, bola." Berikutnya, mari kita tunjukkan kepada Gemini dua contoh gerakan:

Gambar:

cup_shuffle_2_and_3

Tukar: 2 dan 3

Keadaan saat ini: kosong, bola, kosong

Gambar:

cup_shuffle_1_and_2

Tukar: 1 dan 2

Keadaan saat ini: bola, kosong, kosong

Dalam dua contoh gerakan ini, kita menunjukkan seperti apa penukaran itu, dan bagaimana cara mengupdate posisi bola. Sekarang, mari kita lihat apakah Gemini dapat menggeneralisasi penukaran yang belum pernah dilihatnya:

Gambar:

cup_shuffle_1_and_3

Tukar: 

Inilah respons Gemini:

1 dan 3

Keadaan saat ini: kosong, kosong, bola

Gemini berhasil! Ia melihat gambar-gambar ini dan dengan tepat menyimpulkan bahwa gelas 1 dan 3 ditukar. Dan ia menalar dengan benar tentang cara mengupdate posisi bola. Mari kita bertanya:

Beri tahu saya di mana bola itu dan rangkum bagaimana bolanya sampai ke sana, dalam bentuk paragraf.

Gemini: Bolanya ada di gelas 3. 

Dimulai dengan bola di gelas 3, penukaran pertama adalah gelas 2 dan 3. Ini menempatkan bola di gelas 2. Penukaran kedua adalah gelas 1 dan 2. Ini menempatkan bola di gelas 1. Penukaran ketiga adalah gelas 1 dan 3. Ini menempatkan bola di gelas 3.

Gemini tidak hanya menjawab dengan benar, tetapi juga merangkum riwayat permainan dengan akurat. Tentu saja, tantangan ini tidak selalu berhasil. Terkadang langkah tipuan (saat Anda menukar dua gelas kosong) membuatnya bingung, tetapi terkadang juga berhasil. Namun, prompt sederhana seperti ini membuat pengujian Gemini sangat menyenangkan. Anda bisa mengubah variabel dalam prompt Anda, termasuk urutan penukaran, dan melihat bagaimana hasilnya.

🔨 Penggunaan alat

Jika Anda ingin menggunakan Gemini di aplikasi Anda sendiri, Anda pasti ingin Gemini dapat terhubung ke alat lain. Mari kita coba ide sederhana ini saat Gemini perlu menggabungkan multimodalitas dengan penggunaan alat: menggambar untuk menelusuri musik.

musical_drawing

Langkah 1. Lihat gambar ini, jelaskan semua yang ada di dalamnya, dan buatlah ide yang menyenangkan dan spesifik untuk genre, mood, atau soundtrack musik yang bagus. 

Langkah 2. Masukkan kueri penelusuran di formulir: "Telusuri [masukkan kueri]"

Gemini: 

Gambar ini adalah gitar, drum, dan amplifier. Ada juga pohon palem. Suasananya menyenangkan, ceria, dan tropis. Genrenya adalah reggae. Soundtrack ini bisa digunakan untuk film atau acara TV yang berlatarkan lokasi tropis. 

Telusuri "Musik reggae untuk liburan tropis"

Bagus! Gemini memberikan alasan tentang apa yang dilihatnya kemudian menghasilkan kueri penelusuran yang bisa Anda uraikan untuk melakukan penelusuran. Gemini bertindak seperti penerjemah untuk Anda – tetapi alih-alih menerjemahkan antar bahasa, Gemini menerjemahkan modalitas – dari gambar ke musik dalam kasus ini. Dengan multimodal prompting, Anda dapat menggunakan Gemini untuk menciptakan terjemahan Anda sendiri yang benar-benar baru di antara berbagai input dan output.

🕹️Pembuatan game

Bagaimana jika kita mencoba menggunakan Gemini untuk membuat prototipe game multimodal dengan cepat? Inilah idenya: sebuah game tebak-tebakan geografi yang mengharuskan Anda menunjuk peta untuk menebak. Mari kita mulai dengan meminta Gemini untuk memberikan ide utamanya:

Petunjuk: Ayo main game. Pikirkan sebuah negara dan beri aku petunjuk. Petunjuknya harus cukup spesifik sehingga hanya ada satu negara yang benar. Saya akan mencoba menunjuk negaranya di peta.

Berikutnya, mari kita beri Gemini contoh gameplay-nya, untuk menunjukkan bagaimana kita menginginkan Gemini menangani jawaban yang salah dan benar:

Negara: Negara ini adalah pulau besar yang sebagian besar wilayahnya tertutup es.
(Jawaban: Greenland) 

Tebakan:

map 1

Saya menunjuk negara Kanada *salah*

Tebakan:

map 2

Saya menunjuk Greenland *benar*

Mari kita coba dan minta Gemini untuk memberikan petunjuk:

Petunjuk:

Negara ini dikenal dengan satwa liarnya yang unik, termasuk kanguru dan koala. (Jawaban: Australia)

Oke, itu petunjuk yang bagus. Mari kita uji apakah cara ini akan berhasil. Agar lebih seru, mari kita coba menunjuk tempat yang salah terlebih dahulu:

Tebakan:

map 3

Saya menunjuk negara Brasil *salah*

Bagus! Gemini melihat gambarku dan tahu bahwa aku menunjuk Brasil, dan dengan tepat menilai bahwa ini salah. Sekarang mari kita tunjuk tempat yang benar di peta:

map 4

Saya menunjuk negara Australia *benar*

Bagus! Pada dasarnya, kami telah mengajarkan logika game kepada Gemini hanya dengan mencontohkannya. Anda juga akan melihat bahwa itu digeneralisasi dari tangan yang diilustrasikan dalam contoh.

⌨️ Coding

Tentu saja, untuk mewujudkan ide game, Anda harus menulis beberapa kode yang dapat dieksekusi. Mari kita lihat apakah Gemini bisa membuat penghitung mundur sederhana untuk sebuah game, tetapi dengan beberapa sentuhan seru:

Implementasikan timer sederhana dengan HTML/CSS/Javascript. Gunakan font sans serif dan mode gelap. Mulai dari 10 detik dan mulailah menghitung mundur. Saat mencapai angka nol, ganti timer dengan emoji acak yang identik dengan kegembiraan dan motivasi! Kemudian kembali ke timer pada posisi 10 detik dan mulai menghitung mundur lagi.

Hanya dengan satu instruksi ini, Gemini memberi kita timer yang berfungsi sesuai dengan yang kita minta:

Bagian favoritku adalah menelusuri kode sumber Gemini untuk menemukan deretan emoji motivasi yang dipilihnya untuk saya:

const emojis = ['🚀', '⚡️', '🎉', '🎊', '🥳', '🤩', '✨'];

👀 Kilasan

Dalam postingan ini, kami memberikan input kepada Gemini, dan meminta Gemini untuk membuat prediksi tentang apa yang akan terjadi berikutnya. Pada dasarnya inilah yang dimaksud dengan prompting. Dan input kami berupa multimodal – gambar dan teks, digabungkan.

Namun sejauh ini kami hanya menunjukkan Gemini yang merespons dalam bentuk teks. Mungkin Anda bertanya-tanya, bisakah Gemini juga merespons dengan kombinasi gambar dan teks? Bisa! Ini adalah kemampuan Gemini yang disebut “interleaved text and image generation.” Meskipun fitur ini tidak tersedia pada Gemini versi pertama yang bisa dicoba oleh orang-orang sekarang, kami berharap bisa segera meluncurkannya. Berikut adalah gambaran sekilas tentang hal-hal yang dapat dilakukan.

Mari kita lihat apakah kita bisa menggunakan Gemini untuk memberikan inspirasi kreatif sehari-hari. Dan mari kita coba pada domain yang membutuhkan sedikit penalaran multimodal ... merajut! 🧶. Mirip dengan game peta di atas, mari kita berikan satu contoh interaksi:

Beri saya tiga ide untuk kreasi rajutan yang bisa saya buat dengan dua warna ini:

blue ball of yarn next to yellow ball of yarn

Warna: Saya melihat benang biru dan kuning.

Ide 1: Bagaimana kalau seekor anjing lucu dengan satu telinga berwarna kuning?

Gambar 1:

a cute dog made with blue and yellow yarn

Ide 2: Atau bagaimana kalau ubur-ubur dengan beberapa tentakel kuning?

Gambar 2:

a cute jellyfish made with blue and yellow yarn, on light plywood table, overhead birds eye view

Ide 3: Atau bagaimana kalau seekor kucing biru dengan hidung kuning?

Gambar 3:

a cute cat made with blue and yellow yarn

Kami pada dasarnya mengajari Gemini tentang bagaimana kami menginginkan setiap interaksi berjalan: "Saya akan mengambil foto dua bola benang, dan saya berharap kamu (Gemini) bisa memberikan ide untuk sesuatu yang bisa saya buat, dan menampilkan gambarnya."

Sekarang, mari kita tunjukkan sepasang warna benang baru yang belum pernah dilihatnya, dan lihat apakah ia bisa melakukan generalisasi:

Beri saya tiga ide untuk kreasi rajutan yang bisa saya buat dengan dua warna ini:

blue_pink_input (website)

Gemini:

Warna: Saya melihat benang biru dan merah muda.

Idea 1: Bagaimana kalau babi dengan telinga biru?

Gambar 1:

pink_and_blue_pig_3

Ide 2: Atau gurita dengan tentakel berwarna merah muda dan biru?

Gambar 2:

pink_and_blue_octopus_v3

Ide 3: Atau kelinci dengan hidung berwarna merah muda?

Gambar 3:

pink_and_blue_bunny

Bagus! Gemini dengan tepat memberikan penalaran tentang warna-warna baru ("Saya melihat benang biru dan merah muda") dan menampilkan ide serta gambar ini dalam satu output teks dan gambar secara bergantian.

Apa yang dilakukan Gemini di sini pada dasarnya berbeda dari model teks-ke-gambar saat ini. Ia tidak hanya meneruskan instruksi ke model teks-ke-gambar yang terpisah. Ia melihat gambar asli benang di atas meja kayu saya, benar-benar melakukan penalaran multimodal tentang teks dan gambar saya secara bersamaan.

Apa Berikutnya?

Kami harap Anda merasakan manfaat dari panduan pemula ini untuk memahami apa saja yang bisa dilakukan dengan Gemini. Kami sangat bersemangat untuk segera meluncurkannya ke lebih banyak orang sehingga Anda bisa mengeksplorasi ide-ide Anda sendiri melalui prompting. Ikuti terus perkembangannya!