Bagaimana Cara Membuatnya: AI Roadtrip, Kampanye Pixel yang Didukung oleh AI Generatif dan Penggemar

JUN 17, 2024
Trudy Painter Creative Lab
Mathew Ray Creative Lab
Jay Chen Creative Lab
Matthew Carey Creative Lab
Rachel Benner Creative Lab

Apa yang terjadi jika dua ponsel berhenti menjadi rival dan mulai berteman? Anda akan mendapatkan kampanye kompetitif paling bersahabat di dunia: Best Phones Forever. Selama 17 episode, seri ini membawa kedua ponsel ke berbagai petualangan dan membangun audiens penggemar yang loyal.

Berinteraksi secara langsung dengan komunitas penggemar selalu menjadi bagian dari panduan Best Phones Forever. Untuk peluncuran seri tahun lalu, tim kami melatih LLM mengenai gaya kampanye untuk membantu manajer komunitas menghasilkan respons bertema pertemanan untuk ribuan komentar. Dan dengan kemajuan pesat dalam teknologi generatif, kami melihat peluang untuk membawa semangat engagement real-time ke dalam skala yang lebih besar lagi.

Masuki Best Phones Forever: AI Roadtrip — eksperimen pertama kami dalam menggunakan AI generatif untuk menempatkan penggemar di kursi pengemudi dan menghidupkan karakter-karakter ini.

Begini cara kerjanya: Sebuah episode di Instagram Reels menjelaskan bahwa kedua karakter ini melakukan perjalanan darat yang didukung oleh AI. Ketika seorang penggemar berkomentar dengan ide lokasi, tim kami menggunakan alat yang dibuat khusus untuk membuat respons video khusus dalam hitungan menit. Lebih dari 16 jam, kami berencana untuk membuat balasan unik sebanyak mungkin.

A diagram depicting the 5 steps of the AI Roadtrip campaign.
Menggunakan AI generatif untuk membuat konten khusus yang terinspirasi oleh penggemar dalam skala besar

Bekerja sama dengan mitra kami The Mill dan Left Field Labs, kami menggunakan tumpukan model Google AI untuk merancang alat yang menyeimbangkan efisiensi mesin dengan kecerdikan manusia. Kami berharap beberapa hal yang kami sampaikan bisa menginspirasi Anda untuk mengeksplorasi aplikasi kreatif dari teknologi ini.

Untuk melihat aktivasinya secara langsung, kunjungi @googlepixel_us di Instagram


Tentang alat ini

Setelah pengguna memberikan komentar tentang lokasi yang disarankan, kami mengambil lokasi tersebut – misalnya, “Grand Canyon” – dan memasukkannya ke dalam mesin pembuatan kami untuk menghasilkan aset yang disesuaikan:

  • Pembuatan Skrip: Gemini 1.5 Pro membuat beberapa skrip berdasarkan lokasi yang dikomentari, dengan menyertakan humor dan referensi sesuai lokasi.

  • Pembuatan Gambar: Imagen menciptakan galeri gambar latar belakang potensial yang sesuai dengan konteks skrip, untuk mengatur adegan petualangan.

  • Pembuatan Audio: Cloud Text-to-Speech menghasilkan output dialog dari skrip yang dibuat, memberikan suara kepada sahabat ponsel kita.

Tim kreatif kami selalu terlibat dalam setiap langkah, memilih, mengedit, meninjau, dan sesekali memerintahkan ulang untuk memastikan setiap video benar-benar menjadi bagian dari semesta Best Phones Forever.

A diagram that depicts how assets generated with Google AI, including Gemini, Imagen and Cloud Text to Search, are combined in a 3D compositing engine to create the final video reply
Elemen penyusun alat pembuat balasan kami

Cara pembuatan skrip

Kami menginginkan Gemini agar secara andal memproduksi skrip dengan suara kampanye, karakter, panjang, pemformatan, dan gaya yang tepat, sekaligus menghibur dan sesuai dengan lokasi yang disarankan pengguna.

Kami menemukan bahwa cara paling efektif untuk melakukan hal ini bukanlah dengan penjelasan yang panjang, tetapi dengan memberikan banyak contoh dalam perintah. Penulis kami membuat skrip pendek tentang Pixel dan iPhone di berbagai lokasi dan jenis percakapan yang mungkin mereka lakukan di setiap tempat.

Perintah pembuatan skrip kami

Memasukkannya ke dalam Gemini sebagai bagian dari perintah sistem menyelesaikan dua hal. Pertama, sistem ini mengatur panjang dan struktur yang diinginkan dari skrip yang dibuat, dengan setiap ponsel mendapat giliran dalam format 4-6 baris. Kedua, mengondisikan model untuk menghasilkan jenis dialog yang ingin kami dengar dalam video-video ini (pengamatan tentang lokasi, humor yang berhubungan dengan ponsel, gurauan persahabatan, dan beberapa lelucon khas bapak-bapak).

Kami merancang perintah ini agar bekerja sebagai penulis pendamping dengan penulis manusia, jadi pertimbangan terpenting adalah memastikan bahwa Gemini akan menghasilkan berbagai macam skrip yang berfokus pada aspek lokasi yang berbeda dan mengambil pendekatan berbeda untuk percakapan antara Pixel dan iPhone. Dengan begitu, penulis manusia kami dapat memilih dari berbagai skrip untuk memilih salah satu yang terbaik, mengedit, atau menggabungkan naskah.

Untuk memastikan luasnya respons ini, kami meminta Gemini menulis skrip dalam bentuk percakapan. Setelah Gemini membuat satu skrip, kami memintanya untuk membuat skrip yang berbeda, lalu skrip yang berbeda lagi, dan seterusnya, semuanya dalam konteks satu percakapan. Dengan begitu, ia dapat melihat skrip yang telah dibuat sebelumnya dan memastikan skrip yang baru mencakup hal baru — memberikan kurator manusia berbagai pilihan.


Cara pembuatan gambar

Kami menggunakan Imagen 2 untuk menyediakan pembuatan gambar untuk latar belakang kami. Sebagai model terbaru Google yang tersedia secara umum, ini memberikan tim kami kemampuan untuk menciptakan berbagai macam lokasi dan gaya yang dibutuhkan kampanye ini, dengan kontrol bahasa natural yang kuat untuk membantu kami menyesuaikan setiap output.

Kami ingin Imagen membuat latar belakang untuk semua jenis lokasi, tetapi kami juga ingin latar belakang memiliki komposisi yang serupa untuk mengakomodasi Pixel dan iPhone yang sedang mengemudi di latar depan.

Cukup perintahkan model dengan lokasi, seperti “Paris” atau “the dark side of the moon” akan menghasilkan gambar yang terlihat seperti lokasi tersebut, tetapi tidak konsisten, baik dari segi gaya maupun komposisi. Beberapa gambar akan terlalu diperkecil, beberapa gambar hitam putih, dan beberapa gambar tidak memiliki area yang bisa "dikendarai" oleh Pixel dan iPhone.

Menambahkan petunjuk tambahan bisa membantu membuat gambar lebih baik, tetapi kami menemukan bahwa menyesuaikan bahasa untuk setiap lokasi adalah proses manual dan memakan waktu. Karena itulah kami memutuskan memakai Gemini untuk membuat perintah gambar. Setelah penulis manusia memasukkan lokasi, Gemini membuat perintah untuk lokasi tersebut berdasarkan sejumlah contoh perintah yang ditulis oleh manusia. Perintah tersebut kemudian dikirim ke Imagen, yang akan membuat gambar.

Two images side by side. The image on the left was generated with just the prompt “the dark side of the moon.” It is simple and not very realistic. The image on the right was generated with a long prompt provided by Gemini. It is much more detailed and re
Menggunakan Gemini untuk membuat gambar latar belakang yang lebih detail dan spesifik

Kami menemukan bahwa menggunakan perintah yang dibuat AI menghasilkan gambar yang lebih konsisten secara komposisi dan juga lebih menarik secara visual. Latar belakang video kami tidak hanya aset statis; setelah dimasukkan ke dalam Unreal Engine, latar belakang tersebut menjadi bagian penting dari adegan – lebih lanjut tentang hal tersebut dapat dilihat pada bagian di bawah ini.


Cara pembuatan suara

Setelah kami menyelesaikan skrip, kami mengirimkan setiap baris ke Cloud Text-to-Speech untuk menghasilkan audio. Ini adalah proses yang sama yang kami gunakan untuk semua suara karakter dalam kampanye Best Phones Forever.

Meskipun kami mengandalkan Cloud TTS untuk menyintesis ucapan dengan fidelitas tinggi dan terdengar natural, suara kami untuk Pixel dan iPhone memiliki karakteristik masing-masing. Di sini, kami belum menemukan model AI yang benar-benar bisa membantu materi iklan untuk menghasilkan warna suara dan irama yang kami inginkan. Sebagai gantinya, kami menggunakan alat internal untuk menambahkan penekanan dan infleksi untuk menghidupkan karakter kami.

Two images side by side. The image on the top represents the sound waves of auto-generated laughter. It is a simple curve. The image on the bottom represents tuned laughter. It is a curve with multiple peaks and valleys.
Penyesuaian kreatif pada output suara TTS

Beberapa video juga memiliki audio ambien di bawah dialog. Kami menggunakan campuran efek suara yang telah dikomposisikan, rekaman lapangan, dan tentu saja, audio yang dihasilkan oleh AI dengan MusicFX guna menciptakan lanskap suara untuk lokasi dan menambahkan sentuhan realisme ekstra.


Bagaimana semuanya menyatu

Setelah diproduksi, semua aset konstituen secara otomatis akan mengisi antrean render untuk diproses oleh Unreal Engine dan dikomposisikan ke dalam adegan 3D dengan iPhone, Pixel, dan mobil.

Gambar latar melingkupi bagian belakang dan samping adegan, tidak hanya menyediakan latar belakang untuk bidikan ponsel dan mobil secara langsung, tetapi juga perspektif bersudut yang kita lihat apabila kamera bergerak untuk menyorot satu tokoh yang sedang berbicara. Sebagian latar belakang ditangkap dalam pantulan pada kap mobil dan bahkan kaca kamera ponsel, sementara langit di atas berinteraksi dengan pencahayaan adegan untuk menambahkan lebih banyak detail dan realisme.

Editor animasi nonlinier kami memungkinkan tim kreatif untuk menambahkan gerakan ke setiap ponsel dalam semua posisi kamera. Misalnya, jika sebuah ponsel mengajukan pertanyaan, mereka mungkin berpaling ke arah ponsel tersebut, alih-alih melihat ke luar jendela atau melalui kaca depan, bersandar, dan memiringkan badannya secara tentatif. Pernyataan, lelucon, persetujuan, dan kejutan, semuanya memiliki animasi uniknya masing-masing, dan kami dengan mulus menginterpolasi di antara semua hal tersebut dan status istirahat kami.

Alat pengeditan berbasis web kami

Terakhir, tim kreatif kami bisa menghidupkan elemen dinamis dan tekstur yang benar-benar mempersonalisasi setiap video – seperti cipratan lumpur di kap mesin untuk lokasi pedesaan dan berbagai macam topi untuk (sebagian besar) kondisi cuaca. Beberapa lokasi mungkin memerlukan transformasi total pada mobil, dari kendaraan penjelajah tepercaya, kapal selam, atau pesawat ruang angkasa.

Tim kreatif dapat melihat pratinjau VO video, potongan kamera, dan animasi utama sebelum melakukan render. Setelah siap, semua tugas render dikirim ke 15 mesin virtual di Google Cloud Compute. Dari awal hingga akhir, video pendek dapat dibuat hanya dalam waktu 10 menit, termasuk waktu render.


Kesimpulan akhir dan langkah berikutnya

Menggunakan AI generatif untuk pengembangan dan produksi kreatif bukanlah ide baru. Namun, kami sangat senang bisa membangun aplikasi yang menggabungkan model terbaru Google yang siap produksi secara inovatif, yang membawa sebuah ide ke dalam penayangan real-time berskala besar.

Biasanya, video Best Phones Forever membutuhkan waktu berminggu-minggu hanya untuk menulis, menganimasikan, dan merendernya. Dengan alat ini, tim kreatif kami berharap bisa menghasilkan ratusan episode mini khusus dalam satu hari — semuanya terinspirasi oleh imajinasi komunitas Pixel di media sosial.

Kami berharap eksperimen ini memberi Anda gambaran sekilas tentang berbagai hal yang dapat dilakukan menggunakan Gemini dan Imagen API, apa pun tujuan kreatif Anda.