Basta de realizar “pruebas de vibe” en tus LLM, es hora de hacer pruebas reales

27 DE AGOSTO DE 2025

Sara Wiltberger Senior Product Manager Google Labs

Link to Youtube Video (visible only when JS is disabled)

Si estás compilando con LLM, ya sabes cómo es la cosa. Modificas una indicación, la ejecutas unas cuantas veces y… el resultado se siente mejor. Pero, ¿es realmente mejor? No lo sabes con seguridad. Así que sigues modificando, atrapado en un bucle de “pruebas de vibe” que se siente más como arte que como ingeniería.

Esta incertidumbre existe por una simple razón: a diferencia del software tradicional, los modelos de IA no son deterministas. No siempre dan el mismo resultado para la misma entrada, lo que puede hacer que tus pruebas unitarias habituales sean insuficientes para saber si un cambio realmente mejoró las cosas. Además de eso, es posible que debas disputar conjuntos de datos, administrar llamadas de API, analizar salidas y compilar un canal de evaluación completo antes de que puedas comenzar a realizar pruebas.

Para superar las pruebas de vibe anteriores, creamos Stax, una herramienta para desarrolladores experimental diseñada para eliminar el dolor de cabeza de la evaluación de LLM. Aprovechamos la experiencia en evaluación de Google DeepMind y la innovación experimental de Google Labs para agilizar el ciclo de vida de la evaluación de LLM.

¿Por qué hacer evaluaciones?

Para saber si tu aplicación de IA realmente funciona para un caso de uso específico, necesitas realizar tus propias evaluaciones de IA. Los puntos de referencia generales son pruebas genéricas que miden el modelo en una variedad de tareas, pero no te ayudan a evaluar tu pila de IA en función de tus datos y criterios.

Si se hacen bien, las evaluaciones pueden ser un diferenciador clave, ya que te permiten codificar tu objetivo único en tu propio punto de referencia reutilizable. En lugar de pasar horas realizando “pruebas de vibe” cada vez que pruebas un nuevo modelo o modifiquas una indicación, las evaluaciones te brindan métricas más claras para ayudarte a comprender qué es realmente mejor.

La evolución de las metodologías de evaluación

Necesitamos evaluaciones reales y repetibles. En el mundo de los LLM, eso generalmente significa dos cosas: humanos y… más LLM.

1: Humanos: lograr que los humanos etiqueten los resultados es el estándar de oro, pero puede ser lento y costoso.

2: Autoevaluadores (también conocidos como LLM como juez): aquí es donde las cosas se ponen interesantes. Podemos usar un LLM potente (como los modelos de Gemini) con un conjunto específico de instrucciones para “calificar” el resultado de otro modelo. Es una forma escalable y coherente de ayudar a verificar distintos aspectos, como la relevancia, el tono o la precisión de los hechos.

Cómo funciona Stax

Stax puede permitirte probar rigurosamente tu “pila de IA” para ayudarte a tomar decisiones basadas en datos. Esto te ayuda a ganar más confianza al seleccionar y enviar sistemas de IA para tu caso de uso.

Trae tus datos (o compílalos)

¿Tienes un CSV de casos de prueba? Genial, solo tienes que subirlo. ¿Necesitas crear un conjunto de datos desde cero? Nuestra interfaz puede facilitar la creación de un conjunto de indicaciones y respuestas reales que reflejen tu caso de uso real.

Autoevaluadores listos para usar

¿No quieres reinventar la rueda? Tenemos todo lo que necesitas. Pon en marcha los autoevaluadores prediseñados para ayudar a verificar aspectos comunes, como la coherencia, la objetividad y la concisión. Puedes obtener resultados significativos en minutos.

Crea tu propio autoevaluador

Esta es la función definitiva. Debido a que no existe una evaluación única para determinar si tu IA coincide con la voz de la marca de tu empresa o se adhiere a las reglas específicas de tu aplicación, Stax te permite definir fácilmente tus propios criterios y crear un autoevaluador personalizado.

¿Necesitas que tu bot de chat sea “útil, pero no demasiado hablador”? Compila un evaluador para eso.

¿Necesitas asegurarte de que tu resumidor nunca incluya información de identificación personal? Compila un evaluador para eso.

¿Necesitas que tu generador de código coincida con la guía de estilo de tu equipo? Entiendes la idea.

Tú defines la “receta secreta” de lo que hace que un resultado sea bueno para ti, y Stax te permite probarlo a escala contra todo tu conjunto de datos.

Deja de adivinar, comienza a evaluar

Stax te ayuda a salir de la era de cruzar los dedos y enviar funciones LLM. Es hora de tratarlos como cualquier otra parte de su pila de producción: con pruebas rigurosas y herramientas sólidas. Stax te ayuda a comprender, iterar y mejorar tus funciones con tecnología LLM. Comienza a evaluar en stax.withgoogle.com y únete a nuestro canal de Discord para contarnos lo que piensas.

publicado en:

Publicaciones relacionadas

AI Announcements Best Practices

Introducing Metrax: performant, efficient, and robust model evaluation metrics in JAX

13 DE NOVIEMBRE DE 2025

Google Labs AI Announcements Problem-Solving

Descubre al crítico más detallista y el aliado más valioso de Jules

12 DE AGOSTO DE 2025

Google Labs AI Announcements

Presentamos Opal: describe, crea y comparte tus miniapps con IA

24 DE JULIO DE 2025

AI Cloud Announcements

Google Colab is Coming to VS Code

13 DE NOVIEMBRE DE 2025