1 결과
필터링 기준
2025년 8월 27일 / Google Labs
실험적 개발자 도구인 Stax는 LLM 평가 수명 주기를 간소화하여 LLM을 감으로 테스트하는, 일명 '바이브 테스트'의 부족한 부분과 한계를 보완합니다. 덕분에 사용자는 인간의 수동 라벨 지정과 확장 가능한 LLM-as-a-judge 자동 평가 도구(autorater)를 통해 AI 스택을 엄격하게 테스트하고 데이터 기반 의사 결정을 내릴 수 있습니다.