Stop “vibe testing” LLM Anda. Saatnya untuk evals yang sesungguhnya.

27 AGU 2025
Sara Wiltberger Senior Product Manager Google Labs

Link to Youtube Video (visible only when JS is disabled)

Jika Anda membangun dengan LLM, Anda tahu cara kerjanya. Anda menyesuaikan prompt, menjalankannya beberapa kali, dan... outputnya terasa lebih baik. Namun apakah itu benar-benar lebih baik? Anda tidak yakin. Jadi, Anda terus menyesuaikannya, terjebak dalam loop “vibe testing” yang terasa lebih seperti seni daripada engineering.

Ketidakpastian ini ada karena alasan sederhana: tidak seperti software tradisional, model AI bersifat non-deterministik. Mereka tidak selalu memberikan output yang sama untuk input yang sama, ini bisa membuat pengujian unit yang biasa Anda lakukan tidaklah cukup untuk mengetahui jika suatu perubahan benar-benar membuat keadaannya lebih baik. Selain itu, Anda mungkin perlu mengutak-atik set data, mengelola panggilan API, mengurai output, dan membangun seluruh pipeline evaluasi sebelum Anda dapat memulai pengujian.

Untuk mengatasi masalah ini, kami membangun Stax, sebuah alat developer eksperimental yang dirancang untuk menghilangkan kesulitan dalam evaluasi LLM. Kami memanfaatkan keahlian evaluasi dari Google DeepMind dan inovasi eksperimental dari Google Labs untuk mengefisienkan siklus proses evaluasi LLM.


Mengapa evals?

Untuk mengetahui jika aplikasi AI Anda benar-benar berfungsi untuk kasus penggunaan tertentu, Anda memerlukan evals AI Anda sendiri. Tolok ukur umum adalah pengujian generik yang mengukur model di berbagai tugas, tetapi tidak membantu Anda mengevaluasi stack AI berdasarkan data dan kriteria Anda.

Jika dilakukan dengan benar, evals bisa menjadi pembeda utama, memungkinkan Anda mengodifikasikan tujuan unik Anda menjadi tolok ukur Anda yang dapat digunakan kembali. Alih-alih menghabiskan waktu berjam-jam melakukan “vibe testing” setiap kali Anda mencoba model baru atau menyesuaikan prompt, evals memberikan metrik yang lebih jelas untuk membantu memahami hal-hal yang sebenarnya lebih baik.


Evolusi metodologi evaluasi

Kita membutuhkan evaluasi yang riil dan dapat diulang. Dalam dunia LLM, ini secara umum berarti dua hal: manusia dan... lebih banyak LLM.

1: Manusia: Meminta manusia untuk melabeli output adalah standar terbaik, tetapi proses ini bisa berjalan lambat dan mahal.

2: Autorater (alias LLM-as-a-judge): Di sinilah segalanya terlihat menarik. Kita bisa menggunakan LLM yang kuat (seperti model Gemini) dengan seperangkat instruksi khusus untuk “menilai” output model lain. Ini adalah cara yang skalabel dan konsisten untuk membantu memeriksa hal-hal seperti relevansi, nada, atau akurasi faktual.


Cara kerja Stax

Stax bisa membantu Anda menguji “stack AI” secara cermat untuk membantu membuat keputusan berdasarkan data. Hal ini membantu Anda mendapatkan lebih banyak kepercayaan diri saat memilih dan mengirimkan sistem AI untuk kasus penggunaan Anda.


Bawa data Anda (atau buat)

Punya file CSV kasus pengujian? Luar biasa, upload saja. Perlu membangun set data dari awal? Antarmuka kami bisa mempermudah Anda membuat serangkaian prompt dan jawaban berdasarkan fakta yang mencerminkan kasus penggunaan Anda yang sebenarnya.


Autorater yang tidak biasa

Tidak ingin menghabiskan waktu untuk hal yang sudah ada? Kami siap membantu Anda. Jalankan autorater pra-bangun untuk membantu memeriksa hal-hal umum seperti koherensi, faktualitas, dan keringkasan. Anda bisa mendapatkan hasil yang berarti dalam hitungan menit.


Bangun
autorater Anda sendiri

Ini adalah fitur terbaik. Karena tidak ada eval satu-ukuran-untuk-semua yang dapat memberitahu Anda jika AI Anda cocok dengan suara merek perusahaan Anda atau mematuhi aturan khusus aplikasi Anda, Stax memungkinkan Anda dengan mudah menentukan kriteria Anda sendiri dan membangun autorater khusus.

  • Ingin chatbot Anda “membantu tetapi jangan terlalu banyak bicara”? Buatlah penilai untuk hal tersebut.

  • Ingin memastikan peringkas Anda tidak menyertakan PII? Buatlah penilai untuk hal tersebut.

  • Ingin generator kode Anda sesuai dengan panduan gaya tim Anda? Anda mengerti maksudnya.

Anda menentukan “ramuan rahasia” yang membuat suatu output bagus untuk Anda, dan Stax memungkinkan Anda mengujinya dalam skala besar terhadap seluruh set data Anda.


Berhenti menerka, mulailah mengevaluasi

Stax membantu Anda berevolusi dari era berharap tanpa kepastian saat merilis fitur LLM. Saatnya memperlakukan mereka seperti bagian lain dari tumpukan produksi Anda: dengan pengujian yang cermat dan peralatan yang kuat. Stax membantu Anda memahami, melakukan iterasi, dan meningkatkan fitur-fitur berbasis LLM Anda. Mulailah mengevaluasi di stax.withgoogle.com dan bergabunglah dengan saluran Discord kami untuk menyampaikan pendapat Anda.