发帖人 Sara Wiltberger

1 结果

清除过滤器
  • 2025年8月27日 / Google Labs

    别再对 LLM 做“氛围测试”了,是时候进行真正的评估了。

    实验性开发者工具 Stax 通过简化 LLM 评估生命周期,解决了当前“氛围测试”的不足。该工具允许开发者通过人工标注和可扩展的 LLM 即评判自动评分器,对 AI 技术栈进行严格测试,从而实现数据驱动的决策。

    Stax