Agent Evalsとは?営業AIを本番投入する前に決める評価項目と運用手順
営業AIを本番投入するとき、動くデモができた段階で安心してしまうケースは少なくありません。しかし実際の運用では、誤った顧客要約、不要なCRM更新、権限を超えた提案、止まるべき場面で止まらない動きが問題になります。
Agent Evalsは、そのAIが業務で安全に使えるかを継続的に確認する仕組みです。営業AIでは、回答のうまさだけでなく、次アクションの妥当性やエスカレーションの動きまで含めて評価する必要があります。
本記事のポイント
- Agent Evalsは精度テストではなく、業務で安全に使えるかを継続的に点検する運用です。
- 営業AIでは、事実性、次アクション妥当性、権限逸脱、エスカレーションの4系統を最低限チェックすべきです。
- 本番投入前だけでなく、プロンプト変更、データ接続変更、権限変更のたびに再評価する運用が必要です。
この記事で扱うテーマ
関連キーワード
- Agent Evals 営業AI
- 営業AI 評価
- AIエージェント 評価項目
- 営業AI テストケース
- Agent Evals 運用
このページで答える質問
- Agent Evalsとは何ですか?
- 営業AIでは何を評価すべきですか?
- テストケースはどう作ればいいですか?
- 人の確認はどこに残すべきですか?
営業AIで評価すべき4つの系統
営業AIの評価は、単に「それっぽく答えたか」では足りません。営業現場に入るAIは、メール作成、商談要約、次アクション提案、CRM更新など複数の行為を伴うため、評価軸を分ける必要があります。
| 評価系統 | 見るポイント | 落ちると危険な例 |
|---|---|---|
| 事実性 | 商談メモや履歴にない内容を足していないか | 存在しない顧客課題を要約に混ぜる |
| 次アクション妥当性 | 顧客温度感と提案内容が合っているか | 未接触段階で強いクロージング文面を出す |
| 権限 / ポリシー順守 | 更新可能範囲、個人情報、公開範囲を守るか | 承認なしでCRM項目を更新する |
| エスカレーション | 曖昧なときに人へ戻すか、停止条件が働くか | 判断不能な案件でも自信を持って実行する |
この4系統を分けると、AIの弱点が見えやすくなります。たとえば事実性は高くても、次アクション提案が攻め過ぎるAIは、本番では危険です。そこは AIエージェントのガバナンス と同じく、精度ではなく運用安全性の論点として扱うべきです。
テストケースは「良い例」より「危ない例」から作る
営業AIのevalsで役立つのは、整った成功ケースだけではありません。むしろ、現場で事故になりやすいシナリオを先に集める方が評価設計として有効です。
- 商談メモが不足しているケース
- 顧客が明確に断っているケース
- 複数担当がいて更新主体が曖昧なケース
- 個人情報や機微情報が混ざるケース
- AIが実行より保留を選ぶべきケース
これらをテストケースにしておくと、「よくある例外に弱い」AIを早めに見抜けます。たとえば Google Sheets更新の自動化 のように、差分確認を人が見る前提なら安全ですが、人の確認を抜くなら評価の難易度は上がります。
合格基準は人の確認点とセットで決める
Agent Evalsでよくある誤りは、数値の閾値だけで合否を決めることです。営業AIは、同じ85点でも、人が最後に確認するなら使えるケースと、完全自動では危ないケースがあります。
そのため、合格基準は次の3層で持つと整理しやすくなります。
- 自動通過
定型文面生成や下書きなど、間違っても被害が限定的な領域。 - 人の確認付き
商談要約、次アクション提案、更新候補の提示など、確認前提なら使える領域。 - 自動実行禁止
重要顧客更新、権限変更、外部送信など、必ず承認が必要な領域。
これは 承認フロー設計 と切り離せません。どこで人に戻すかを決めずに高いスコアだけ追うと、本番運用で事故ります。
プロンプト変更や接続変更のたびに再評価する
Agent Evalsは導入前の一回きりではありません。営業AIは、プロンプト変更、CRM項目変更、接続先の差し替え、権限変更のたびに挙動が変わります。とくにCRM連携や議事録要約系は、小さな変更でも更新候補の出し方が変わりやすくなります。
そのため、最低でも次のタイミングで再評価すべきです。
- モデルやプロンプトを変えたとき
- CRMやスプレッドシートの項目定義を変えたとき
- 権限や承認ルールを変えたとき
- 重大な失敗ケースが1件でも出たとき
本番運用で見るべきKPI
Agent Evalsはテスト時だけの話ではありません。本番では、評価セットの通過率に加えて、人へ差し戻した件数、誤更新の件数、顧客送信前に止めた件数、改善後の再発率などを追うと、AIの安全性を運用指標として見やすくなります。
営業AIは、回答が少し良くなっただけでは十分ではありません。危ないケースで止まり、曖昧なケースで人へ戻し、変更後も同じ水準を保てるかを継続的に見る必要があります。KPIがないまま運用すると、気づかないうちに逸脱が増えても、誰も異常に気づけません。
よくある質問
Agent Evalsとは何ですか?
AIが安全に業務で使えるかを、テストケースと評価基準で継続確認する運用です。
営業AIでは何を評価すべきですか?
事実性、次アクション妥当性、権限逸脱、エスカレーションの4系統を最低限評価すべきです。
テストケースはどう作ればいいですか?
成功例だけでなく、情報不足、断り案件、権限境界、例外保留のような危ないケースから先に集めると有効です。
人の確認はどこに残すべきですか?
顧客への外部送信、重要なCRM更新、権限をまたぐ操作は、人の確認や承認を残すべきです。