1 resultados
27 DE AGOSTO DE 2025 / Google Labs
O Stax, uma ferramenta experimental para desenvolvedores, aborda a natureza insuficiente do "vibe testing" de LLMs ao simplificar o ciclo de vida da avaliação de LLMs, permitindo que os usuários testem pilhas de IA rigorosamente e tomem decisões orientadas por dados por meio de rotulagem humana e classificadores automáticos escalonáveis de LLM como juiz.