Bagaimana Cara Membuatnya: TextFX adalah rangkaian alat AI yang dibuat bekerja sama dengan Lupe Fiasco

AGU 02, 2023
Aaron Wade Creative Technologist

Sesi Lab Google adalah rangkaian kolaborasi AI eksperimental dengan para inovator. Dalam Sesi Lab terbaru, kami ingin mengeksplorasi secara khusus bagaimana AI bisa memperluas kreativitas manusia. Jadi kami meminta rapper pemenang GRAMMY® Award dan MIT Visiting Scholar, Lupe Fiasco, untuk membangun eksperimen AI yang disebut TextFX.

Link to Youtube Video (visible only when JS is disabled)

Proses penemuan

Kami mulai dengan menghabiskan waktu bersama Lupe untuk mengamati dan mempelajari proses kreatifnya. Proses ini ditandai dengan semacam "utak-atik" linguistik—yaitu mendekonstruksi bahasa kemudian menyusunnya kembali secara baru dan inovatif. Beberapa teknik Lupe, seperti simile dan aliterasi, diambil dari kanon perangkat sastra tradisional. Namun banyak taktiknya yang betul-betul unik. Di antaranya adalah cara cerdasnya menciptakan frasa yang terdengar identik dengan kata tertentu tetapi memiliki arti yang berbeda, yang ia tunjukkan kepada kami dengan menggunakan kata “expressway”:

express whey (pengiriman cepat produk sampingan susu)
express sway (untuk menunjukkan pengaruh)
ex-press way (jalur tanpa media berita)

Operasi semacam ini memainkan peran penting dalam tulisan Lupe. Mengingat hal ini, kami mulai bertanya-tanya: Bagaimana kami dapat menggunakan AI untuk membantu Lupe mengeksplorasi potensi kreatif dengan teks dan bahasa?

Ketika menyangkut aplikasi yang berhubungan dengan bahasa, model bahasa besar (LLM) adalah pilihan yang jelas dari perspektif AI. LLM adalah kategori model machine learning yang dirancang khusus untuk melakukan tugas yang berhubungan dengan bahasa, dan satu hal yang dapat kita gunakan adalah menghasilkan teks. Namun, tetap masih ada pertanyaan tentang bagaimana LLM dapat benar-benar cocok dengan alur kerja penulisan lirik Lupe.

Beberapa LLM seperti Bard dari Google telah disesuaikan untuk berfungsi sebagai agen percakapan. Yang lainnya seperti model Text Bison PaLM API tidak memiliki elemen percakapan ini dan sebagai gantinya menghasilkan teks dengan memperluas atau memenuhi teks input yang diberikan. Salah satu hal terbaik dari jenis LLM yang terakhir ini adalah kapasitasnya untuk melakukan few-shot learning. Dengan kata lain, mereka bisa mengenali pola yang muncul dalam sekumpulan kecil contoh pelatihan dan kemudian mereplikasi pola tersebut untuk input baru.

Sebagai eksperimen awal, kami meminta Lupe memberikan lebih banyak contoh teknik frasa yang terdengar sama. Kami kemudian menggunakan contoh-contoh tersebut untuk membuat sebuah prompt, yang merupakan string teks yang dibuat dengan hati-hati untuk memerintahkan LLM agar berperilaku sedemikian rupa. Prompt awal kami untuk tugas frasa yang terdengar sama terlihat seperti ini:

Kata: defeat
Frasa yang terdengar sama: da feet (seperti "the feet")
 
Kata: surprise
Frasa yang terdengar sama: Sir Prize (ksatria yang bernama Prize)
 
Kata: expressway
Frasa yang terdengar sama: express whey (pengiriman cepat produk sampingan susu)
 
(...contoh tambahan...)
 
Kata: [INPUT WORD]
Frasa yang terdengar sama:

Prompt ini terkadang menghasilkan output yang cukup baik, tetapi kami merasa masih ada ruang untuk peningkatan. Kami menemukan bahwa faktor-faktor di luar isi dan jumlah contoh dapat memengaruhi output—misalnya, bagaimana tugas dibingkai, bagaimana input dan output direpresentasikan, dll. Setelah beberapa kali iterasi, kami akhirnya sampai pada kesimpulan berikut ini:

Frasa yang terdengar sama adalah frasa yang terdengar seperti kata atau frasa lain.
 
 
Berikut adalah frasa yang terdengar sama untuk kata "defeat":
 
da feet (seperti "the feet")
 
 
Berikut adalah frasa yang terdengar sama untuk kata "surprise":
 
Sir Prize (ksatria yang bernama Prize)
 
 
Berikut adalah frasa yang terdengar sama untuk kata "expressway":
 
express whey (pengiriman cepat produk sampingan susu)
 
 
(...contoh tambahan...)
 
 
Berikut adalah frasa yang terdengar sama untuk kata "[INPUT WORD]":

Setelah berhasil melakukan coding terhadap tugas kata yang terdengar sama ke dalam few-shot prompt, kami bekerja sama dengan Lupe untuk mengidentifikasi tugas-tugas kreatif tambahan yang mungkin bisa kami capai dengan menggunakan strategi few-shot prompting yang sama. Pada akhirnya, kami merancang sepuluh prompt, masing-masing dirancang secara unik untuk mengeksplorasi kemungkinan kreatif yang mungkin muncul dari kata, frasa, atau konsep yang diberikan:

SIMILE - Membuat simile tentang suatu hal atau konsep.
EXPLODE - Memecah kata menjadi frasa yang terdengar mirip.
UNEXPECT - Membuat skenario yang lebih tak terduga dan imajinatif.
CHAIN - Membangun rantai item yang terkait secara semantik.
POV - Mengevaluasi suatu topik dari berbagai sudut pandang.
ALLITERATION - Mengurutkan kata dengan topik tertentu yang dimulai dengan huruf yang dipilih.
ACRONYM - Membuat akronim dengan menggunakan huruf dari sebuah kata.
FUSE - Membuat akronim dengan menggunakan huruf dari sebuah kata.
SCENE - Membuat akronim dengan menggunakan huruf dari sebuah kata.
UNFOLD - Menyisipkan kata ke dalam kata atau frasa yang sudah ada.

Kami bisa dengan cepat membuat prototipe setiap ide ini menggunakan MakerSuite, yang merupakan platform yang memungkinkan pengguna untuk dengan mudah membangun dan bereksperimen dengan prompt LLM melalui antarmuka yang interaktif.

Bagaimana kami membuatnya: membangun menggunakan PaLM API

Setelah menyelesaikan few-shot prompt, kami membuat aplikasi untuk menampungnya. Kami memutuskan untuk menamakannya TextFX, yang berasal dari pemikiran bahwa setiap alat memiliki "efek" yang berbeda pada teks inputnya. Seperti efek suara, tetapi untuk teks.

Kami menyimpan prompt sebagai string dalam kode sumber dan mengirimkannya ke model PaLM 2 Google menggunakan PaLM API, yang berfungsi sebagai pintu masuk ke model bahasa besar Google.

Semua prompt kami didesain untuk berhenti dengan pasangan input-output yang tidak lengkap. Ketika pengguna mengirimkan input, kami menambahkan input tersebut ke prompt sebelum mengirimkannya ke model. Model memprediksi output yang sesuai untuk input tersebut, kemudian kami mengurai setiap hasil dari respons model dan melakukan beberapa pasca-pemrosesan sebelum akhirnya memunculkan hasilnya di frontend.

lupe3

Pengguna bisa secara opsional menyesuaikan temperatur model, yang merupakan hyperparameter yang kurang lebih sesuai dengan jumlah kreativitas yang diperbolehkan dalam output model.

Cobalah sendiri

Anda bisa mencoba TextFX di textfx.withgoogle.com.

Kami juga menyediakan semua prompt LLM di MakerSuite. Jika Anda memiliki akses ke pratinjau publik untuk PaLM API dan MakerSuite, Anda dapat membuat salinan prompt menggunakan link di bawah ini. Jika tidak, Anda bisa bergabung dalam daftar tunggu.

Dan jika Anda ingin melihat lebih dekat bagaimana kami membangun TextFX, kami menjadikan open source kodenya di sini.

Jika Anda ingin mencoba membangun dengan PaLM API dan MakerSuite, bergabunglah dengan daftar tunggu.

Pesan terakhir

TextFX adalah contoh bagaimana Anda bisa bereksperimen dengan PaLM API dan membangun aplikasi dengan memanfaatkan model bahasa besar Google yang canggih. Secara lebih luas, eksplorasi ini menunjukkan potensi AI untuk meningkatkan kreativitas manusia. TextFX menargetkan penulisan kreatif, tetapi apa artinya bagi AI untuk memasuki domain kreatif lainnya sebagai kolaborator? Kreator memainkan peran penting dalam membantu kita membayangkan seperti apa kolaborasi ini nantinya. Harapan kami, Sesi Lab ini memberi Anda gambaran sekilas tentang berbagai kemungkinan yang dapat dilakukan dengan menggunakan PaLM API dan menginspirasi Anda untuk menggunakan penawaran AI dari Google untuk mewujudkan ide Anda, apa pun kreasi Anda.

Jika Anda ingin menjelajahi lebih banyak Sesi Lab seperti ini, kunjungi labs.google.com.