Menghidupkan Karakter yang Dapat Berbicara dengan AI Generatif

16 MEI 2023

Jay Ji Senior Product Manager Google PI

Christian Frueh Software Engineer Google Research

Pedro Vergani Staff Designer Insight UX

Template karakter berteknologi AI yang dapat disesuaikan yang menunjukkan kekuatan LLM untuk menciptakan pengalaman interaktif dengan mendalam

Tim Partner Innovation Google telah mengembangkan serangkaian template AI Generatif untuk menunjukkan bagaimana menggabungkan Model Bahasa Besar dengan Google API dan teknologi terkini bisa menyelesaikan kasus penggunaan industri khusus.

Talking Character adalah pembuat avatar 3D yang bisa disesuaikan yang memungkinkan developer menghidupkan karakter animasi dengan AI Generatif. Baik developer maupun pengguna bisa mengonfigurasi kepribadian, latar belakang, dan pusat informasi avatar, serta menciptakan pakar spesialis dengan perspektif unik tentang topik tertentu. Kemudian, pengguna dapat berinteraksi dengannya, baik dalam bentuk teks maupun percakapan verbal.

Sebagai contoh, kami telah menetapkan model karakter dasar, Buddy. Dia adalah seekor anjing ramah yang telah kami berikan latar belakang, kepribadian, dan pusat informasi sehingga pengguna bisa berbicara tentang pengalaman hidup anjing pada umumnya. Kami juga memberikan contoh bagaimana kepribadian dan latar belakang dapat diubah untuk menjadi persona seorang agen asuransi andal - atau menjadi apa pun.

Template kode kami dirancang untuk melayani dua tujuan utama:

Pertama, menyediakan antarmuka pengujian bagi developer dan pengguna untuk bereksperimen dengan konsep engineering cepat yang ampuh untuk pengembangan karakter dan memanfaatkan set data tertentu di atas PaLM API untuk menciptakan pengalaman yang unik.

Kedua, menunjukkan bagaimana interaksi AI Generatif bisa ditingkatkan tidak hanya sekadar pengalaman berbasis teks atau chat. Dengan memanfaatkan layanan cloud seperti speech-to-text dan text-to-speech, serta model machine learning untuk menghidupkan karakter, developer dapat menciptakan pengalaman yang jauh lebih natural bagi pengguna.

Kasus penggunaan potensial dari jenis teknologi ini beragam dan mencakup aplikasi seperti alat kreatif interaktif dalam mengembangkan karakter dan narasi untuk game atau cerita; dukungan teknologi bahkan untuk sistem atau proses yang kompleks; layanan pelanggan yang disesuaikan untuk produk atau layanan tertentu; untuk latihan debat, pembelajaran bahasa, atau pendidikan mata pelajaran tertentu; atau sekadar menghidupkan aset merek dengan suara dan kemampuan berinteraksi.

Implementasi Teknis

Interaksi

Kami menggunakan beberapa komponen teknologi terpisah agar avatar 3D dapat melakukan percakapan natural dengan pengguna. Pertama, kami menggunakan layanan speech-to-text Google untuk mengubah input ucapan menjadi teks, yang kemudian dimasukkan ke dalam PaLM API. Kemudian kami menggunakan text-to-speech untuk menghasilkan suara yang terdengar seperti manusia sebagai respons model bahasa.

Animasi

Untuk menghadirkan pengalaman visual yang interaktif, kami menciptakan avatar 3D 'berbicara' yang dianimasikan berdasarkan pola dan intonasi suara yang dihasilkan. Dengan menggunakan framework MediaPipe, kami memanfaatkan model machine learning audio-to-blendshapes yang baru untuk menghasilkan ekspresi wajah dan gerakan bibir yang tersinkronkan dengan pola suara.

Blendshapes adalah parameter kontrol yang digunakan untuk menganimasikan avatar 3D dengan menggunakan sekumpulan bobot. Model audio-to-blendshapes kami memprediksi bobot ini dari input suara secara real-time, untuk menggerakkan avatar animasi. Model ini dilatih dari video 'talking head' menggunakan Tensorflow, di sini kami menggunakan pelacakan wajah 3D untuk mempelajari pemetaan dari ucapan ke blendshapes wajah, seperti yang dijelaskan dalam makalah ini.

Setelah bobot blendshape yang dihasilkan diperoleh dari model, kami menggunakannya untuk mengubah ekspresi wajah dan gerakan bibir avatar 3D, menggunakan library open source JavaScript 3D three.js.

Desain Karakter

Dalam membuat Buddy, tujuan kami adalah mengeksplorasi terbentuknya ikatan emosional antara pengguna dengan latar belakang yang kaya dan kepribadian yang berbeda. Tujuan kami bukan hanya untuk meningkatkan level interaksi, tetapi juga menunjukkan bagaimana sebuah karakter, misalnya karakter yang memiliki sifat humor, dapat membentuk interaksi Anda dengannya.

Seorang penulis konten mengembangkan cerita latar yang memikat untuk memperkuat karakter ini. Latar belakang cerita ini, bersama dengan pusat informasinya, adalah hal yang memberikan karakter mendalam dan menghidupkannya.

Selanjutnya, kami berusaha untuk menggabungkan isyarat non-verbal yang dapat dikenali, seperti ekspresi wajah, sebagai indikator progres interaksi. Contohnya, apabila karakter tampak sedang berpikir keras, ini merupakan tanda bahwa model sedang memikirkan tanggapannya.

Struktur Prompt

Terakhir, agar avatar mudah dikustomisasi dengan input teks sederhana, kami merancang struktur prompt agar memiliki tiga bagian: kepribadian, latar belakang, dan pusat informasi. Kami menggabungkan ketiga bagian tersebut menjadi satu prompt besar, dan mengirimkannya ke PaLM API sebagai konteks.

Kemitraan dan Kasus Penggunaan

ZEPETO, favorit para Gen Z, adalah dunia sosial yang berpusat pada avatar, di sini pengguna bisa sepenuhnya menyesuaikan persona digital mereka, menjelajahi tren mode, dan terlibat dalam ekspresi diri serta interaksi virtual yang dinamis. Template Talking Character kami memungkinkan pengguna membuat avatar mereka sendiri, mendandaninya dengan pakaian dan aksesori yang berbeda, serta berinteraksi dengan pengguna lain di dunia virtual. Kami bekerja sama dengan ZEPETO dan telah menguji avatar metaverse mereka dengan lebih dari 50 blendshapes dengan hasil yang luar biasa.

"Melihat karakter AI menjadi hidup sebagai avatar ZEPETO serta berbicara dengan fasih dan mendalam sungguh menginspirasi. Kami percaya bahwa kombinasi model bahasa yang canggih dan avatar akan memperluas kemungkinan yang ada di metaverse, dan kami sangat senang bisa menjadi bagian di dalamnya."- Daewook Kim, CEO, ZEPETO

Demo ini tidak terbatas pada kasus penggunaan metaverse. Demo ini menunjukkan bagaimana karakter bisa menghidupkan teks atau pusat informasi dalam domain apa pun.

Misalnya dalam game, NPC yang didukung LLM bisa memperkaya dunia game dan memperdalam pengalaman pengguna melalui percakapan bahasa natural dengan mendiskusikan dunia, sejarah, dan karakter game.

Dalam dunia pendidikan, karakter bisa dibuat untuk mewakili berbagai mata pelajaran yang akan dipelajari siswa, atau menampilkan berbagai karakter yang mewakili tingkat kesulitan yang berbeda dalam skenario kuis edukasi interaktif, atau menggambarkan karakter dan peristiwa sejarah tertentu untuk membantu orang belajar tentang berbagai budaya, tempat, orang, dan waktu.

Dalam dunia niaga, perangkat Talking Character bisa digunakan untuk menghidupkan merek dan toko, atau mendukung penjual di lokapasar eCommerce dan memberdayakan alat untuk membuat toko mereka lebih menarik dan dipersonalisasi untuk memberikan pengalaman pengguna yang lebih baik. Ini dapat digunakan untuk membuat avatar bagi pelanggan saat mereka menjelajahi lingkungan retail dan memberikan pengalaman virtual berbelanja seperti di dunia nyata.

Lebih luas lagi, setiap merek, produk, atau layanan bisa menggunakan demo ini untuk menghidupkan agen yang dapat berbicara dan berinteraksi dengan pengguna berdasarkan pengetahuan nada suara, bertindak sebagai duta merek, perwakilan layanan pelanggan, atau asisten penjualan.

Open Source dan Dukungan Developer

Tim Partner Innovation Google telah mengembangkan serangkaian Template AI Generatif yang menampilkan berbagai kemungkinan ketika menggabungkan LLM dengan Google API dan teknologi terkini untuk menyelesaikan kasus penggunaan industri khusus. Setiap template diluncurkan di I/O pada bulan Mei tahun ini, dan bersifat open source bagi developer dan mitra.

Kami akan bekerja sama dengan beberapa mitra dalam EAP sehingga kami dapat bersama-sama mengembangkan dan meluncurkan pengalaman dan fitur khusus berdasarkan template ini, ketika API dirilis di masing-masing pasar (waktu rilis Asia Pasifik (APAC) belum dapat dipastikan). Talking Agent juga akan bersifat open source sehingga developer dan startup bisa membangun di atas pengalaman yang telah kami ciptakan. Tim Partner Innovation Google akan terus membangun fitur dan alat bermitra dengan pasar lokal untuk memperluas litbang yang sudah berjalan. Lihat proyek di GitHub di sini.

Ucapan Terima kasih

Kami ingin mengucapkan terima kasih atas kontribusi yang tak ternilai dari rekan-rekan kami dalam proyek ini: Mattias Breitholtz, Yinuo Wang, Vivek Kwatra, Tyler Mullen, Chuo-Ling Chang, Boon Panichprecha, Lek Pongsakorntorn, Zeno Chullamonthon, Yiyao Zhang, Qiming Zheng, Joyce Li, Xiao Di, Heejun Kim, Jonghyun Lee, Hyeonjun Jo, Jihwan Im, Ajin Ko, Amy Kim, Dream Choi, Yoomi Choi, KC Chung, Edwina Priest, Joe Fry, Bryan Tanaka, Sisi Jin, Agata Dondzik, Miguel de Andres-Clavera.