評価ハーネスは、AIやAIエージェントの出力、途中の行動、ツール利用が期待どおりかを、テストケースや採点基準で継続的に確認する仕組みです。
英語では evaluation harness や eval harness と呼ばれ、AIアプリを本番運用するうえで重要になっています。
まず押さえたいポイント
- AIの出力を、毎回人が読むだけではスケールしない
- テストケース、評価指標、実行ログ、合否判定をまとめて扱う
- 決定的なテストと、LLMによる採点を使い分ける
- AIエージェントでは、最終回答だけでなく途中の行動も評価する
どんな場面で使うか
コード生成AIなら、テスト、型チェック、lint、セキュリティスキャンを評価に入れます。
問い合わせ対応AIなら、根拠文書に沿っているか、禁止表現がないか、回答がユーザーの質問に答えているかを確認します。
AIエージェントの場合は、さらにツール呼び出しの順序、不要なファイルアクセス、失敗時の停止、再試行回数なども評価対象になります。
最終回答が自然でも、途中で危険な操作をしていれば合格とは言えません。
決定的な評価とLLM評価
決定的な評価は、合否が明確な確認です。
たとえば、JSONスキーマに合っている、単体テストが通る、禁止APIを呼んでいない、指定されたファイルだけ変更している、といったものです。
LLMによる評価は、説明の分かりやすさ、要約の十分さ、顧客対応としての自然さのように、人間の判断に近い観点を扱えます。
ただし、評価するLLM自体も揺れるため、重要な判断では人間レビューや決定的なテストと組み合わせる方が安全です。
実務で見るポイント
最初から完璧な評価基盤を作るより、過去に失敗したケースをテストケース化するのが現実的です。
「根拠なしで回答した」「古い仕様を参照した」「テスト未実行で成功扱いにした」といった失敗を集め、再発したら検知できるようにします。
評価ハーネスは、ハーネスエンジニアリングの中核です。
モデルやプロンプトを変えたときに品質が上がったのか下がったのかを見える化し、本番投入前に危ない変化へ気づけるようにします。