Link to Youtube Video (visible only when JS is disabled)
Si estás compilando con LLM, ya sabes cómo es la cosa. Modificas una indicación, la ejecutas unas cuantas veces y… el resultado se siente mejor. Pero, ¿es realmente mejor? No lo sabes con seguridad. Así que sigues modificando, atrapado en un bucle de “pruebas de vibe” que se siente más como arte que como ingeniería.
Esta incertidumbre existe por una simple razón: a diferencia del software tradicional, los modelos de IA no son deterministas. No siempre dan el mismo resultado para la misma entrada, lo que puede hacer que tus pruebas unitarias habituales sean insuficientes para saber si un cambio realmente mejoró las cosas. Además de eso, es posible que debas disputar conjuntos de datos, administrar llamadas de API, analizar salidas y compilar un canal de evaluación completo antes de que puedas comenzar a realizar pruebas.
Para superar las pruebas de vibe anteriores, creamos Stax, una herramienta para desarrolladores experimental diseñada para eliminar el dolor de cabeza de la evaluación de LLM. Aprovechamos la experiencia en evaluación de Google DeepMind y la innovación experimental de Google Labs para agilizar el ciclo de vida de la evaluación de LLM.
Para saber si tu aplicación de IA realmente funciona para un caso de uso específico, necesitas realizar tus propias evaluaciones de IA. Los puntos de referencia generales son pruebas genéricas que miden el modelo en una variedad de tareas, pero no te ayudan a evaluar tu pila de IA en función de tus datos y criterios.
Si se hacen bien, las evaluaciones pueden ser un diferenciador clave, ya que te permiten codificar tu objetivo único en tu propio punto de referencia reutilizable. En lugar de pasar horas realizando “pruebas de vibe” cada vez que pruebas un nuevo modelo o modifiquas una indicación, las evaluaciones te brindan métricas más claras para ayudarte a comprender qué es realmente mejor.
Necesitamos evaluaciones reales y repetibles. En el mundo de los LLM, eso generalmente significa dos cosas: humanos y… más LLM.
1: Humanos: lograr que los humanos etiqueten los resultados es el estándar de oro, pero puede ser lento y costoso.
2: Autoevaluadores (también conocidos como LLM como juez): aquí es donde las cosas se ponen interesantes. Podemos usar un LLM potente (como los modelos de Gemini) con un conjunto específico de instrucciones para “calificar” el resultado de otro modelo. Es una forma escalable y coherente de ayudar a verificar distintos aspectos, como la relevancia, el tono o la precisión de los hechos.
Stax puede permitirte probar rigurosamente tu “pila de IA” para ayudarte a tomar decisiones basadas en datos. Esto te ayuda a ganar más confianza al seleccionar y enviar sistemas de IA para tu caso de uso.
¿Tienes un CSV de casos de prueba? Genial, solo tienes que subirlo. ¿Necesitas crear un conjunto de datos desde cero? Nuestra interfaz puede facilitar la creación de un conjunto de indicaciones y respuestas reales que reflejen tu caso de uso real.
¿No quieres reinventar la rueda? Tenemos todo lo que necesitas. Pon en marcha los autoevaluadores prediseñados para ayudar a verificar aspectos comunes, como la coherencia, la objetividad y la concisión. Puedes obtener resultados significativos en minutos.
Esta es la función definitiva. Debido a que no existe una evaluación única para determinar si tu IA coincide con la voz de la marca de tu empresa o se adhiere a las reglas específicas de tu aplicación, Stax te permite definir fácilmente tus propios criterios y crear un autoevaluador personalizado.
Tú defines la “receta secreta” de lo que hace que un resultado sea bueno para ti, y Stax te permite probarlo a escala contra todo tu conjunto de datos.
Stax te ayuda a salir de la era de cruzar los dedos y enviar funciones LLM. Es hora de tratarlos como cualquier otra parte de su pila de producción: con pruebas rigurosas y herramientas sólidas. Stax te ayuda a comprender, iterar y mejorar tus funciones con tecnología LLM. Comienza a evaluar en stax.withgoogle.com y únete a nuestro canal de Discord para contarnos lo que piensas.