'바이브 테스트'는 그만, 이제 LLM에 대한 진정한 평가가 필요한 때.

2025년 8월 27일

Sara Wiltberger Senior Product Manager Google Labs

Link to Youtube Video (visible only when JS is disabled)

LLM으로 개발하는 분이라면 이미 알고 계실 겁니다. 몇 번 프롬프트를 수정하고 실행하다 보면 결과물이 더 좋아졌다는 느낌이 듭니다. 그러나 실제로도 더 좋아진 걸까요? 확신하기는 힘듭니다. 그래서 엔지니어링보다는 마치 예술을 하는 느낌으로 작업하는 '바이브 테스트'의 덫에 갇혀 프롬프트만 계속 손보게 됩니다.

이런 불확실성이 발생하는 이유는 간단합니다. AI 모델이 기존 소프트웨어와 달리 비결정적이기 때문입니다. 즉, 같은 입력에 대해 항상 동일한 출력이 나오는 것이 아니므로 일반적인 단위 테스트만으로는 어떤 변경 사항이 실제로 더 나은 결과를 낳았는지 확인하기에 충분치 않을 수 있습니다. 게다가 테스트를 시작하기도 전에 데이터 세트와 씨름하고, API 호출을 관리하고, 출력을 파싱하고, 전체 평가 파이프라인을 구축해야 할 수도 있습니다.

이처럼 그저 감에 의존하는 데서 벗어나고자 Stax를 개발했습니다. Stax는 LLM 평가에서 골치 아픈 문제를 없애기 위해 고안된 실험적 개발자 도구입니다. LLM 평가 수명 주기를 간소화하고자 Google DeepMind의 평가 전문 지식과 Google Labs의 혁신적 실험 기술을 활용했습니다.

평가가 중요한 이유는?

AI 애플리케이션이 특정 사용 사례에 실제로 효과적인지 확인하려면 자체 AI 평가가 필수입니다. 보통의 벤치마크는 다양한 작업에서 모델을 측정하는 일반적인 테스트이지만, 자체 보유 데이터와 기준에 따라 AI 스택을 평가하는 데는 도움이 되지 않습니다.

제대로 수행된다면, 평가는 자신만의 고유한 목표를 자신만의 재사용 가능한 벤치마크로 체계화할 수 있도록 하는 핵심적인 차별화 요소가 될 수 있습니다. 새로운 모델을 사용해 보거나 프롬프트를 조정할 때마다 몇 시간씩 '바이브 테스트'를 하는 대신, 여러 평가를 통해 무엇이 실제로 더 나은지 파악하는 데 도움이 되는 더 명확한 측정항목을 얻을 수 있습니다.

평가 방법론의 진화

반복 가능한 실제 평가가 필요합니다. LLM 분야에서 이는 일반적으로 두 가지를 의미합니다. 바로 인간과 더 많은 LLM입니다.

1: 인간: 인간이 직접 출력 결과에 라벨을 지정하는 것이 정석이겠지만 속도가 느리고 비용이 많이 들 수 있습니다.

2: 자동 평가 도구(일명 LLM-as-a-judge): 흥미로워지는 지점이 바로 이 부분입니다. Gemini 모델 같은 강력한 LLM을 특정 지시문 세트와 함께 사용하여 다른 모델의 출력 결과에 '등급'을 매길 수 있습니다. 자동 평가 도구는 관련성, 어조 또는 사실의 정확성 같은 사항을 확인하는 데 도움이 되는 확장 가능하고 일관된 방법입니다.

Stax의 작동 방식

Stax는 'AI 스택'을 엄격하게 테스트하여 데이터 기반 의사 결정을 내릴 수 있도록 지원합니다. 이를 통해 사용 사례에 맞는 AI 시스템을 자신 있게 선택하고 배포할 수 있습니다.

자체 데이터를 가져오거나 구축하기

테스트 케이스를 모아둔 CSV 파일이 있나요? 멋지군요. 그것을 그냥 업로드하시면 됩니다. 아니면 처음부터 데이터 세트를 구축해야 하나요? Google의 인터페이스를 사용하면 실제 사용 사례를 반영하는 일련의 프롬프트와 근거가 확실한 사실에 기반한 답변을 더 쉽게 만들 수 있습니다.

즉시 사용 가능한 자동 평가 도구

모든 걸 처음부터 만들고 싶지 않으시다고요? 저희가 도와드리겠습니다. 사전 제작된 자동 평가 도구를 가동해 일관성, 사실성, 간결성 등 일반적인 사항을 확인하세요. 몇 분 안에 의미 있는 결과를 얻을 수 있습니다.

자체 자동 평가 도구 만들기

정말 훌륭한 기능입니다. 자체 AI가 자사 브랜드의 개성에 부합하는지 또는 사용 중인 애플리케이션의 특정 규칙을 준수하는지 판별해 줄 범용 평가 도구가 없으므로, Stax를 통해 자체 기준을 쉽게 정의하고 맞춤형 자동 평가 도구를 만들 수 있습니다.

"유용하되 지나치게 수다스럽지 않은" 챗봇이 필요하세요? 그에 적합한 평가 도구를 만드세요.

요약 작성기에 개인 식별 정보(PII)가 포함되지 않도록 해야 하나요? 그에 적합한 평가 도구를 만드세요.

팀의 스타일 가이드에 맞는 코드 생성기가 필요하세요? 아이디어를 얻을 수 있을 겁니다.

나에게 맞는 출력 결과를 얻는 '비법'을 정의하고 Stax를 사용하면 전체 데이터 세트에 대해 대규모로 테스트할 수 있습니다.

추측을 멈추고 평가를 시작하세요

Stax는 그저 요행으로 잘 되기를 빌며 LLM 기능을 배포하던 시대에서 벗어나 앞으로 나아가도록 도와줍니다. 이제 LLM도 프로덕션 스택의 다른 부분과 마찬가지로 엄격한 테스트와 견고한 도구를 활용해야 할 때입니다. Stax는 여러분이 LLM 기반 기능을 이해하고 반복하고 개선할 수 있도록 지원합니다. stax.withgoogle.com에서 평가를 시작하고 Discord 채널에 가입하여 의견을 들려주세요.

게시 위치: