記事公開日 2026/02/18

Copilot Studioエージェント評価機能解説｜回答精度の自動テスト術

Copilot Studio

この記事の重要ポイント

Copilot Studioの「エージェント評価」機能により、回答精度の自動テストとスコア化が可能になります。
「品質」「類似性」「テキスト一致」の3つの基準で、多角的にエージェントの性能を測定できます。
テストケースの自動生成機能を活用することで、テスト作成の工数を大幅に削減できます。
2026年2月現在においては、プレビュー機能となります。

こんにちは、DXソリューション営業本部の中井です。
AIエージェントを開発する際、「本当に正しい回答ができているか？」「知識ソースを更新しても精度が落ちていないか？」を確認するのは非常に骨の折れる作業です。
一つひとつ手動でチャットをして確認するのは時間がかかりますし、評価も主観に頼りがちです。

そこで今回は、Microsoft Copilot Studioの新機能である「エージェント評価（Agent Evaluation）」について解説します。
この機能を活用すれば、エージェントの品質管理をデータに基づき、効率的に行うことができます。

はじめに
エージェント評価とは？
3つの評価基準（テストメソッド）
利用手順：3ステップで評価を回す
知っておくべき制限と注意点
よくある質問
まとめ

はじめに

AIエージェントの導入が進む中で、避けて通れないのが「精度維持」の課題です。
これまでは、開発者が手動で質問を入力して回答を確認する「テストチャット」が主流でしたが、網羅的な検証には限界がありました。

エージェント評価機能は、こうした「テストの工数不足」と「客観的な評価の難しさ」を解決するために登場しました。
大規模なテストを自動で実行し、定量的なスコアでエージェントの改善を支援します。

エージェント評価とは？

エージェント評価は、エージェントに対する「質問」と「期待される回答」のセット（テストセット）をあらかじめ用意し、一括でテストを実行できる機能です。

通常のテストチャットが1対1の対話確認であるのに対し、評価機能は複数のケースを一度に自動実行できる点が最大の特徴です。
これにより、エージェントの設定変更前後のパフォーマンス比較を、客観的な数値（合格率など）で行えるようになります。

3つの評価基準（テストメソッド）

エージェントの回答をどのように「採点」するか、以下の3つのメソッドから選択できます。

メソッド名	特徴と用途
品質 (Quality)	AI（LLM）が「関連性」「根拠」「完全性」を評価。生成AIらしい柔軟な回答のチェックに最適。
類似性 (Similarity)	期待される回答と実際の回答の意味がどれだけ近いかを0〜1で判定。意味の同一性を重視する場合に有効。
テキスト一致 (Text Match)	完全一致やキーワード一致で判定。定型文やコードなど、正確さが必須の回答に利用。

利用手順：3ステップで評価を回す

STEP 1 テストセットを作成する
「評価」ページから新しいテストセットを作成します。
手動入力のほか、エージェントの知識ソースからAIがテストケースを自動生成する便利な機能も備わっています。

💡 ヒント

既存のテストチャット履歴からテストセットを作ることも可能です。
実際のユーザーが困った質問をベースにすることで、より実践的なテストセットになります。

STEP 2 評価を実行する
テストセットが準備できたら「評価」ボタンをクリックします。
Copilot Studioが自動で質問を投げ、回答を記録・採点していきます。

STEP 3 結果を分析・比較する
完了後、合格率やスコアを確認します。
失敗したケースは「アクティビティマップ」で推論プロセスを深掘りし、過去の結果と照らし合わせて改善状況をチェックしましょう。

知っておくべき制限と注意点

本機能を利用する際は、以下の点に注意が必要です（※2026年2月時点のプレビュー情報に基づく）。

プレビュー機能：現在はプレビュー段階のため、仕様変更の可能性があります。
会話の長さ：1問1答形式にのみ対応しており、複数ターンの対話テストはできません。
データ保持：テスト結果の保持期間は89日間です。長期保存はCSVエクスポートを活用しましょう。
サイズ制限：1つのセットに含められるテストケースは最大100件までです。

よくある質問

Q. 3つの評価メソッドはどう使い分ければよいですか？

回答の「正確さ」が必須（コードや定型句など）ならテキスト一致、「意味の合致」を重視するなら類似性、生成AIとしての「妥当性や根拠」を総合的に見たい場合は品質を選びます。
迷った場合は、まず「品質」で全体の傾向を掴むのがおすすめです。

Q. スコアが低い場合、どのように改善すればよいですか？

アクティビティマップを確認し、エージェントがどの知識を参照したか、あるいは参照しなかったかを確認してください。
知識ソースの追加やトピックの修正を行うことで、スコアを向上させることができます。

まとめ

エージェント評価機能の導入により、AI開発は「感覚的な調整」から「データに基づいた確実な改善」へと進化します。
特に自動テストによる効率化は、迅速なDX推進において強力な武器となるはずです。

信頼性の高いエージェントを構築し、ビジネスの現場で最大限活用するために、ぜひこの評価機能を試してみてください。

QESでは、Power Platform導入時の支援から、アプリケーション開発、導入後の保守サポートまで対応しています。
以下のリンクからご提供しているサービスの詳細をご確認いただけます。