1 結果
フィルタ:
2025年8月27日 / Google Labs
試験運用版デベロッパー ツールである Stax は、LLM 評価ライフサイクルを合理化することで LLM の「バイブテスト」では不十分な点に対処し、人間によるラベル付けと拡張可能な LLM-as-a-judge 自動評価ツールを介して、ユーザーが AI スタックを厳密にテストして、データ駆動型の意思決定を行えるようにします。