Apa yang terjadi jika dua ponsel berhenti menjadi rival dan mulai berteman? Anda akan mendapatkan kampanye kompetitif paling bersahabat di dunia: Best Phones Forever. Selama 17 episode, seri ini membawa kedua ponsel ke berbagai petualangan dan membangun audiens penggemar yang loyal.
Berinteraksi secara langsung dengan komunitas penggemar selalu menjadi bagian dari panduan Best Phones Forever. Untuk peluncuran seri tahun lalu, tim kami melatih LLM mengenai gaya kampanye untuk membantu manajer komunitas menghasilkan respons bertema pertemanan untuk ribuan komentar. Dan dengan kemajuan pesat dalam teknologi generatif, kami melihat peluang untuk membawa semangat engagement real-time ke dalam skala yang lebih besar lagi.
Masuki Best Phones Forever: AI Roadtrip — eksperimen pertama kami dalam menggunakan AI generatif untuk menempatkan penggemar di kursi pengemudi dan menghidupkan karakter-karakter ini.
Begini cara kerjanya: Sebuah episode di Instagram Reels menjelaskan bahwa kedua karakter ini melakukan perjalanan darat yang didukung oleh AI. Ketika seorang penggemar berkomentar dengan ide lokasi, tim kami menggunakan alat yang dibuat khusus untuk membuat respons video khusus dalam hitungan menit. Lebih dari 16 jam, kami berencana untuk membuat balasan unik sebanyak mungkin.
Bekerja sama dengan mitra kami The Mill dan Left Field Labs, kami menggunakan tumpukan model Google AI untuk merancang alat yang menyeimbangkan efisiensi mesin dengan kecerdikan manusia. Kami berharap beberapa hal yang kami sampaikan bisa menginspirasi Anda untuk mengeksplorasi aplikasi kreatif dari teknologi ini.
Untuk melihat aktivasinya secara langsung, kunjungi @googlepixel_us di Instagram
Setelah pengguna memberikan komentar tentang lokasi yang disarankan, kami mengambil lokasi tersebut – misalnya, “Grand Canyon” – dan memasukkannya ke dalam mesin pembuatan kami untuk menghasilkan aset yang disesuaikan:
Tim kreatif kami selalu terlibat dalam setiap langkah, memilih, mengedit, meninjau, dan sesekali memerintahkan ulang untuk memastikan setiap video benar-benar menjadi bagian dari semesta Best Phones Forever.
Kami menginginkan Gemini agar secara andal memproduksi skrip dengan suara kampanye, karakter, panjang, pemformatan, dan gaya yang tepat, sekaligus menghibur dan sesuai dengan lokasi yang disarankan pengguna.
Kami menemukan bahwa cara paling efektif untuk melakukan hal ini bukanlah dengan penjelasan yang panjang, tetapi dengan memberikan banyak contoh dalam perintah. Penulis kami membuat skrip pendek tentang Pixel dan iPhone di berbagai lokasi dan jenis percakapan yang mungkin mereka lakukan di setiap tempat.
Memasukkannya ke dalam Gemini sebagai bagian dari perintah sistem menyelesaikan dua hal. Pertama, sistem ini mengatur panjang dan struktur yang diinginkan dari skrip yang dibuat, dengan setiap ponsel mendapat giliran dalam format 4-6 baris. Kedua, mengondisikan model untuk menghasilkan jenis dialog yang ingin kami dengar dalam video-video ini (pengamatan tentang lokasi, humor yang berhubungan dengan ponsel, gurauan persahabatan, dan beberapa lelucon khas bapak-bapak).
Kami merancang perintah ini agar bekerja sebagai penulis pendamping dengan penulis manusia, jadi pertimbangan terpenting adalah memastikan bahwa Gemini akan menghasilkan berbagai macam skrip yang berfokus pada aspek lokasi yang berbeda dan mengambil pendekatan berbeda untuk percakapan antara Pixel dan iPhone. Dengan begitu, penulis manusia kami dapat memilih dari berbagai skrip untuk memilih salah satu yang terbaik, mengedit, atau menggabungkan naskah.
Untuk memastikan luasnya respons ini, kami meminta Gemini menulis skrip dalam bentuk percakapan. Setelah Gemini membuat satu skrip, kami memintanya untuk membuat skrip yang berbeda, lalu skrip yang berbeda lagi, dan seterusnya, semuanya dalam konteks satu percakapan. Dengan begitu, ia dapat melihat skrip yang telah dibuat sebelumnya dan memastikan skrip yang baru mencakup hal baru — memberikan kurator manusia berbagai pilihan.
Kami menggunakan Imagen 2 untuk menyediakan pembuatan gambar untuk latar belakang kami. Sebagai model terbaru Google yang tersedia secara umum, ini memberikan tim kami kemampuan untuk menciptakan berbagai macam lokasi dan gaya yang dibutuhkan kampanye ini, dengan kontrol bahasa natural yang kuat untuk membantu kami menyesuaikan setiap output.
Kami ingin Imagen membuat latar belakang untuk semua jenis lokasi, tetapi kami juga ingin latar belakang memiliki komposisi yang serupa untuk mengakomodasi Pixel dan iPhone yang sedang mengemudi di latar depan.
Cukup perintahkan model dengan lokasi, seperti “Paris” atau “the dark side of the moon” akan menghasilkan gambar yang terlihat seperti lokasi tersebut, tetapi tidak konsisten, baik dari segi gaya maupun komposisi. Beberapa gambar akan terlalu diperkecil, beberapa gambar hitam putih, dan beberapa gambar tidak memiliki area yang bisa "dikendarai" oleh Pixel dan iPhone.
Menambahkan petunjuk tambahan bisa membantu membuat gambar lebih baik, tetapi kami menemukan bahwa menyesuaikan bahasa untuk setiap lokasi adalah proses manual dan memakan waktu. Karena itulah kami memutuskan memakai Gemini untuk membuat perintah gambar. Setelah penulis manusia memasukkan lokasi, Gemini membuat perintah untuk lokasi tersebut berdasarkan sejumlah contoh perintah yang ditulis oleh manusia. Perintah tersebut kemudian dikirim ke Imagen, yang akan membuat gambar.
Kami menemukan bahwa menggunakan perintah yang dibuat AI menghasilkan gambar yang lebih konsisten secara komposisi dan juga lebih menarik secara visual. Latar belakang video kami tidak hanya aset statis; setelah dimasukkan ke dalam Unreal Engine, latar belakang tersebut menjadi bagian penting dari adegan – lebih lanjut tentang hal tersebut dapat dilihat pada bagian di bawah ini.
Setelah kami menyelesaikan skrip, kami mengirimkan setiap baris ke Cloud Text-to-Speech untuk menghasilkan audio. Ini adalah proses yang sama yang kami gunakan untuk semua suara karakter dalam kampanye Best Phones Forever.
Meskipun kami mengandalkan Cloud TTS untuk menyintesis ucapan dengan fidelitas tinggi dan terdengar natural, suara kami untuk Pixel dan iPhone memiliki karakteristik masing-masing. Di sini, kami belum menemukan model AI yang benar-benar bisa membantu materi iklan untuk menghasilkan warna suara dan irama yang kami inginkan. Sebagai gantinya, kami menggunakan alat internal untuk menambahkan penekanan dan infleksi untuk menghidupkan karakter kami.
Beberapa video juga memiliki audio ambien di bawah dialog. Kami menggunakan campuran efek suara yang telah dikomposisikan, rekaman lapangan, dan tentu saja, audio yang dihasilkan oleh AI dengan MusicFX guna menciptakan lanskap suara untuk lokasi dan menambahkan sentuhan realisme ekstra.
Setelah diproduksi, semua aset konstituen secara otomatis akan mengisi antrean render untuk diproses oleh Unreal Engine dan dikomposisikan ke dalam adegan 3D dengan iPhone, Pixel, dan mobil.
Gambar latar melingkupi bagian belakang dan samping adegan, tidak hanya menyediakan latar belakang untuk bidikan ponsel dan mobil secara langsung, tetapi juga perspektif bersudut yang kita lihat apabila kamera bergerak untuk menyorot satu tokoh yang sedang berbicara. Sebagian latar belakang ditangkap dalam pantulan pada kap mobil dan bahkan kaca kamera ponsel, sementara langit di atas berinteraksi dengan pencahayaan adegan untuk menambahkan lebih banyak detail dan realisme.
Editor animasi nonlinier kami memungkinkan tim kreatif untuk menambahkan gerakan ke setiap ponsel dalam semua posisi kamera. Misalnya, jika sebuah ponsel mengajukan pertanyaan, mereka mungkin berpaling ke arah ponsel tersebut, alih-alih melihat ke luar jendela atau melalui kaca depan, bersandar, dan memiringkan badannya secara tentatif. Pernyataan, lelucon, persetujuan, dan kejutan, semuanya memiliki animasi uniknya masing-masing, dan kami dengan mulus menginterpolasi di antara semua hal tersebut dan status istirahat kami.
Terakhir, tim kreatif kami bisa menghidupkan elemen dinamis dan tekstur yang benar-benar mempersonalisasi setiap video – seperti cipratan lumpur di kap mesin untuk lokasi pedesaan dan berbagai macam topi untuk (sebagian besar) kondisi cuaca. Beberapa lokasi mungkin memerlukan transformasi total pada mobil, dari kendaraan penjelajah tepercaya, kapal selam, atau pesawat ruang angkasa.
Tim kreatif dapat melihat pratinjau VO video, potongan kamera, dan animasi utama sebelum melakukan render. Setelah siap, semua tugas render dikirim ke 15 mesin virtual di Google Cloud Compute. Dari awal hingga akhir, video pendek dapat dibuat hanya dalam waktu 10 menit, termasuk waktu render.
Menggunakan AI generatif untuk pengembangan dan produksi kreatif bukanlah ide baru. Namun, kami sangat senang bisa membangun aplikasi yang menggabungkan model terbaru Google yang siap produksi secara inovatif, yang membawa sebuah ide ke dalam penayangan real-time berskala besar.
Biasanya, video Best Phones Forever membutuhkan waktu berminggu-minggu hanya untuk menulis, menganimasikan, dan merendernya. Dengan alat ini, tim kreatif kami berharap bisa menghasilkan ratusan episode mini khusus dalam satu hari — semuanya terinspirasi oleh imajinasi komunitas Pixel di media sosial.
Kami berharap eksperimen ini memberi Anda gambaran sekilas tentang berbagai hal yang dapat dilakukan menggunakan Gemini dan Imagen API, apa pun tujuan kreatif Anda.