LLM の「バイブテスト」に頼るのはやめて、今こそ実際的な評価を

2025年8月27日

Sara Wiltberger Senior Product Manager Google Labs

Link to Youtube Video (visible only when JS is disabled)

LLM での開発手順はよくご存じのことでしょう。プロンプトの微調整を数回繰り返すと出力が良くなったと感じられます。しかし、実際に良くなっているのでしょうか？確信はないでしょう。そのため、微調整を続け、エンジニアリングというよりはアートのように感じる「バイブテスト」（感覚で判定するテスト）のループに巻き込まれます。

確証が持てない理由は単純で、従来のソフトウェアとは異なり AI モデルは非決定論的だからです。つまり、同じ入力に対して出力が常に同じとは限りません。そのため、通常のユニットテストでは、変更が実際に改善をもたらしたと確信するのに不十分な可能性があります。さらに、テストを開始する前に、データセットのラングリング、API 呼び出しの管理、出力の解析、評価パイプライン全体の構築が必要になる場合があります。

Google は、感覚的な判断から脱却し、LLM 評価における頭痛の種を取り除けるように試験運用版デベロッパーツール、Stax を開発しました。Google DeepMind の評価に関する専門知識と Google Labs の実験的なイノベーションを活用して、LLM の評価ライフサイクルを合理化します。

評価ツールが必要とされる理由

AI アプリケーションが特定のユースケースで本当に機能するかどうかを確認するには、独自の AI 評価ツールが必要です。一般的なベンチマークは、さまざまなタスクにわたってモデルを測定する一般的なテストですが、独自のデータと基準に基づいて AI スタックを評価するのには役立ちません。

正しく実行すると、評価ツールは重要な差別化要因となり、独自のユニークな目標を独自の再利用可能なベンチマークに盛り込めます。新しいモデルを試したり、プロンプトを調整したりするたびに何時間も「バイブテスト」を行う代わりに、明確な指標を得て、実際に何が改善されているかを理解できるようになります。

評価方法の進化

実質的で繰り返しが可能な評価が必要です。LLM の世界では、それには一般的に人間、そして強力な LLM という 2 つの方法があります。

1: 人間: 人間による出力へのラベル付けは王道ですが、それには時間がかかり、コストが高くなりがちです。

2: 自動評価ツール（別名 LLM-as-a-judge）: 注目に値するこのツールは、Gemini モデルのような強力な LLM に特定の一連の指示を与え、別のモデルの出力を「採点」させることができます。一貫性があり拡張可能な方法で、関連性、語調、事実の精度などを確認するのに役立ちます。

Stax の仕組み

Stax は、「AI スタック」を厳密にテストしてデータ駆動型の意思決定を行うのに役立ち、ユースケースに適した AI システムの選択と出荷を自信を持って行えるようにします。

独自のデータを利用（または作成）

テストケースの CSV をお持ちですか？お持ちであれば、アップロードするだけです。データセットを最初から作成する必要がある場合は、Google のインターフェースを使用して、実際のユースケースを反映した一連のプロンプトと検証済みの真の回答のセットを簡単に作成できます。

すぐに使える自動評価ツール

わざわざ一から作成するのをお望みでない場合は、お任せください。構築済みの自動評価ツールを利用すれば、一貫性、事実性、簡潔さなどの一般的な項目に関する確認をすぐに行えます。有意義な結果を数分で得られます。

独自の自動評価ツールを作成

これはとても魅力的な機能です。自分の AI が自分の会社のブランドボイスと一致しているか、自分のアプリケーションの特定のルールに準拠しているかを判定する万能な評価手段はないからです。Stax を使用すると、独自の基準を容易に定義して、カスタム自動評価ツールを作成できます。

chatbot を「役に立つけれど、くだけすぎた語調にならない」ようにする必要がありますか？それに特化した評価ツールを構築します。

サマライザーに PII が含まれていないようにする必要がありますか？それに特化した評価ツールを構築します。

チームのスタイルガイドに一致するコード生成ツールが必要ですか？もう、おわかりでしょう。

自分に適した出力になるように改善する「秘伝のソース」を定義すれば、Stax でデータセット全体に対して大規模にテストできるようになります。

今こそ推測に頼らない評価を

Stax を利用すれば、神頼みしながら LLM 機能を出荷する時代から脱却できます。今こそ、厳格なテストと堅牢なツールを使用して、本番スタックの他の部分と同様に扱うときです。Stax は LLM ベースの機能を理解し、反復処理し、改善するのに役立ちます。stax.withgoogle.com で評価を開始し、Discord チャンネルに参加して、ご意見をお聞かせください。