ガードレールは、AIの入力、出力、ツール操作を安全な範囲に収めるための制御や運用ルールです。
生成AIやAIエージェントでは、禁止したい入力を検知する、危険な出力を止める、副作用のある操作に承認を挟む、といった目的で使われます。
まず押さえたいポイント
- AIに「危ないことをしないで」と頼むだけでは足りない
- 入力、出力、ツール実行のそれぞれに置ける
- 検知した後に、止める、修正する、人へ回すなどの処理を決める
- セキュリティ、品質、法務、ブランドリスクと関係する
どんな場面で使うか
社内AIチャットなら、個人情報や機密情報の扱いを制御します。
コード生成AIなら、危険なコマンド、不要な外部送信、ライセンス上の問題、テスト未実行の変更を止めることがあります。
AIエージェントでは、さらに重要です。
エージェントはツールを使って行動するため、回答内容だけでなく、どのAPIを呼んだか、どのファイルを読んだか、どの操作を実行したかを制御する必要があります。
よくある誤解
ガードレールは、プロンプトに禁止事項を書くことだけではありません。
もちろんシステムメッセージや指示は大事ですが、それだけでは実行時の安全性を保証できません。
実務では、許可リスト、権限分離、サンドボックス、スキーマ検証、外部送信の確認、ログ監査、人間承認などと組み合わせます。
重要な操作ほど、モデルの善意や理解力に頼らず、システム側で止められる形にする方が安全です。
実務で見るポイント
最初に決めたいのは、何を守るためのガードレールかです。
個人情報を守りたいのか、誤回答を減らしたいのか、危険な操作を止めたいのかで、設計は変わります。
また、厳しすぎるガードレールは業務を止めます。
そのため、ブロック、警告、人間確認、自動修正のどれにするかをリスクごとに分けると運用しやすいです。ハーネスエンジニアリングでは、このような制御を評価やログとセットで設計します。