别再对 LLM 做“氛围测试”了,是时候进行真正的评估了。

2025年8月27日
Sara Wiltberger Senior Product Manager Google Labs

Link to Youtube Video (visible only when JS is disabled)

如果您正在使用 LLM 进行构建,对这个流程一定不陌生:调整提示词后运行数次,输出结果似乎变好了。但究竟是否真正改进?您其实并不确定。于是您继续不断调整,陷入“氛围测试”的循环陷阱中。整个过程更像一门艺术,而非严谨的工程。

这种不确定性源于一个简单的原因:与传统软件不同,AI 模型具有非确定性。相同的输入未必产生相同输出,这使得传统单元测试难以准确评估某项改动是否真正带来改进。更重要的是,您还需要整理数据集、管理 API 调用、解析输出结果,甚至必须构建完整的评估流程才能开始测试。

为了摆脱氛围测试,我们开发了实验性开发者工具 Stax,旨在彻底解决 LLM 评估的难题。该项目融合了 Google DeepMind 的评估技术专长以及 Google Labs 的实验性创新,致力于优化整个 LLM 评估生命周期。


为何需要评估?

要判断 AI 应用是否真正适用于特定场景,您需要专属的 AI 评估体系。通用基准测试只是对模型在多种任务上的表现进行泛化衡量,却无法帮助您基于自己的数据和标准来评估整个 AI 技术栈。

精心设计的评估体系可成为关键差异化优势,让您将独特目标转化为可重复使用的专属基准。相比每次尝试新模型或调整提示时耗费大量时间进行“氛围测试”,专项评估能提供更清晰的量化指标,帮助您准确识别哪些改进真正有效。


评估方法论的演进

我们需要真实可复现的评估方案。在 LLM 领域,这通常意味着两种核心方式:人工评估与……更多 LLM 的参与。

1. 人工评估:人工标注输出是黄金标准,但可能存在效率较低、成本较高的问题。

2. 自动评分器(又名“LLM 即评判”):这才是真正的亮点。我们可以使用强大的 LLM(如 Gemini 模型),通过一套明确的指令给其他模型的输出“打分”。这是一种可扩展且一致的方法,有助于评估相关性、语气或事实准确性等指标。


Stax 的工作原理

Stax 可以对“AI 技术栈”进行严格的测试,帮助您做出以数据为依据的决策。该机制能让您在为特定用例选择和部署 AI 系统时获得更强的信心。


导入数据(或自行构建)

已有测试用例的 CSV 文件?很好,直接上传即可。需要从头开始构建数据集?我们的界面有助于您更轻松地创建一组贴合您真实使用场景的提示和标准答案。


开箱即用的自动评分器

不想重复造轮子?我们已为您备好解决方案。只需一键启动预置的自动评分器,即可快速检查连贯性、事实准确性与简洁性等常见指标。几分钟内就能获得有意义的评估结果。


构建
专属自动评分器

这才是核心亮点功能。由于不存在能通用评估 AI 是否符合企业品牌调性、是否遵循应用特定规则的标准化方案,Stax 允许您轻松自定义评判标准,构建专属的自动评分器。

  • 希望聊天机器人“乐于助人但不过分健谈”?不妨创建一个对应的评分器。

  • 想确保摘要工具绝从不包含 PII?不妨创建一个对应的评分器。

  • 需要让代码生成器符合团队的编码规范?一样的道理。

您可以自行定义评判输出质量的“核心标准”,Stax 则助您针对整个数据集进行规模化测试。


停止猜测,开始评估

Stax 助您告别“听天由命”式地部署 LLM 功能的时代。现在起,请像对待生产环境中的其他技术组件一样,用严谨的测试和强大的工具来管理 LLM 功能。Stax 有助于您深度理解、快速迭代并持续改进基于 LLM 的产品特性。立即访问 stax.withgoogle.com 开始评估,并加入我们的 Discord 频道分享您的使用体验。