Link to Youtube Video (visible only when JS is disabled)
Se você cria LLMs, já sabe como as coisas funcionam. Você ajusta um prompt, executa-o algumas vezes e... a saída parece melhor. Mas ela é realmente melhor? Você não tem certeza. Então, você continua fazendo ajustes e fica preso em um loop de "vibe testing" que se parece mais com arte do que com engenharia.
Essa incerteza existe por uma simples razão: ao contrário do software tradicional, os modelos de IA não são determinísticos. Eles nem sempre dão a mesma saída para a mesma entrada, o que pode tornar seus testes de unidade habituais insuficientes para saber se uma mudança realmente fez melhorias. E ainda pode ser necessário manipular conjuntos de dados, gerenciar chamadas de API, analisar saídas e criar todo um pipeline de avaliação antes mesmo de começar a testar.
Para acabar com isso, criamos o Stax, uma ferramenta experimental para desenvolvedores projetada para acabar com os problemas da avaliação de LLMs. Aproveitamos a experiência em avaliação do Google DeepMind e a inovação experimental do Google Labs para simplificar o ciclo de vida da avaliação de LLMs.
Para saber se um aplicativo de IA realmente funciona para um caso de uso específico, você precisa de suas próprias avaliações de IA. Os comparativos de mercado em geral são testes genéricos que medem o modelo em uma variedade de tarefas, mas não ajudam a avaliar uma pilha de IA com base nos seus dados e critérios.
Feitas corretamente, as avaliações podem ser um diferencial crítico, permitindo que você codifique a sua meta exclusiva no seu próprio comparativo de mercado reutilizável. Em vez de gastar horas com o "vibe testing" toda vez que você experimenta um novo modelo ou ajusta um prompt, as avaliações fornecem métricas mais claras para ajudar a entender o que é realmente melhor.
Precisamos de avaliações reais e repetíveis. No mundo dos LLMs, isso geralmente significa duas coisas: seres humanos e... mais LLMs.
1: Seres humanos: fazer com que humanos rotulem as saídas é o padrão ouro, mas isso pode ser lento e caro.
2: Classificadores automáticos (também conhecidos como LLM como juiz): é aqui que as coisas ficam interessantes. Podemos usar um LLM poderoso (como os modelos Gemini) com um conjunto específico de instruções para "classificar" a saída de outro modelo. Essa é uma maneira escalonável e consistente de ajudar a verificar coisas como relevância, tom ou acurácia factual.
O Stax pode capacitar você a testar rigorosamente sua "pilha de IA" para ajudar a tomar decisões orientadas por dados. Isso ajuda você a ter mais confiança ao selecionar e lançar sistemas de IA para seu caso de uso.
Tem um CSV de casos de teste? Ótimo! Basta fazer o upload. Precisa criar um conjunto de dados a partir do zero? Nossa interface pode facilitar a criação de um conjunto de prompts e respostas embasadas que refletem seu caso de uso real.
Não quer reinventar a roda? Temos tudo o que você precisa. Ative classificadores pré-fabricados para ajudar a verificar elementos comuns, como coerência, factualidade e concisão. Você pode obter resultados significativos em questão de minutos.
Esse é o recurso mais incrível. Como não há uma avaliação multiuso para dizer se a sua IA corresponde à voz da marca da sua empresa ou se ela adere às regras específicas do seu aplicativo, o Stax permite definir facilmente seus próprios critérios e criar um classificador automático personalizado.
Você define o "ingrediente secreto" do que torna uma saída boa para você, e o Stax permite que você faça o teste em escala e utilizando todo o seu conjunto de dados.
O Stax ajuda você parar de "fazer figa" e lançar recursos de LLM. É hora de tratá-los como qualquer outra parte da pilha de produção: com testes rigorosos e conjuntos de ferramentas robustos. O Stax ajuda você a entender, iterar e melhorar seus recursos habilitados por LLM. Comece a avaliar em stax.withgoogle.com e participe de nosso canal do Discord para nos dizer o que você achou.