Chạy test và xem kết quả đánh giá agent
Chạy các bài đánh giá và phân tích kết quả để tối ưu hóa hành vi của agent và xác nhận rằng agent đáp ứng những yêu cầu về chất lượng và kinh doanh của bạn. Bạn cũng có thể chạy một bộ công cụ test nhiều lần để xem các thay đổi theo thời gian khi bạn cải thiện agent của mình.
Bài viết này giải thích cách bắt đầu các bài đánh giá và xem kết quả bằng giao diện Copilot Studio. Bạn cũng có thể chạy các bài kiểm tra bằng API Power Platform hoặc những connector được thêm vào dưới dạng công cụ hoặc là một phần của luồng tự động hóa trong Copilot Studio hoặc Power Automate.
Kết quả kiểm thử có sẵn trong Copilot Studio trong 89 ngày. Để lưu kết quả kiểm thử của bạn trong thời gian dài hơn, hãy xuất kết quả sang file CSV.
Chạy thử nghiệm với một bộ công cụ test
Sau khi tạo một bộ công cụ test, hãy chạy thử nghiệm bằng cách sử dụng bộ đó. Hoặc, chạy lại các bài kiểm thử bằng cách sử dụng cùng một bộ để so sánh kết quả theo thời gian và những lần lặp lại. Một bài kiểm thử có thể mất đến vài phút để chạy. Bạn chỉ có thể chạy một bài kiểm thử tại một thời điểm.
Lưu ý quan trọng: Các bài kiểm tra đánh giá agent sử dụng xác thực người dùng yêu cầu quyền truy cập thông qua connector Microsoft Copilot Studio. Nếu quản trị viên tắt kết nối này, bạn không thể chạy thử nghiệm bằng công cụ đánh giá.
1. Truy cập trang Evaluation của agent.

2. Chạy thử nghiệm bằng cách thực hiện một trong các thao tác sau:
- Sau khi tạo hoặc chỉnh sửa bộ công cụ test, chọn Evaluate.
- Trong phần Recent results, chạy lại thử nghiệm bằng cách thực hiện một trong các bước sau:
- Di chuột qua kết quả thử nghiệm bạn muốn đánh giá, sau đó chọn ▶ Evaluate (Evaluate test set again) bên cạnh Evaluate Agent.
- Chọn kết quả thử nghiệm để mở, sau đó chọn biểu tượng Run ▶ trong ngăn Evaluation summary.
Nếu profile người dùng cho bộ công cụ test có kết nối bị lỗi hoặc bộ công cụ test không có profile người dùng, hộp thoại Manage profile and connections sẽ xuất hiện. Bạn không cần phải sử dụng profile người dùng để thử nghiệm. Tuy nhiên, nếu bạn sử dụng profile, tất cả các kết nối phải hoạt động.
Quá trình đánh giá mất vài phút để chạy. Kết quả kiểm tra được xử lý theo thời gian thực, từng dòng một. Bạn sẽ thấy kết quả của từng trường hợp kiểm tra đánh giá xuất hiện tuần tự khi chúng được tạo ra. Việc xử lý trực tiếp các trường hợp kiểm tra giúp bạn nắm bắt ngay lập tức những xu hướng chất lượng và các lỗi tiềm ẩn trong khi quá trình đánh giá đang chạy. Bạn có thể dừng quá trình chạy bất cứ lúc nào nếu phát sinh sự cố. Một cảnh báo sẽ xuất hiện trong Copilot Studio khi quá trình đánh giá hoàn tất và kết quả tóm tắt đã sẵn sàng để xem.
Lưu ý: Bạn chỉ có thể chạy một bộ công cụ kiểm tra đánh giá tại một thời điểm. Hãy đợi cho đến khi quá trình đánh giá hiện tại hoàn tất trước khi chạy một quá trình đánh giá khác.
Xem chi tiết kết quả kiểm tra
Mỗi khi bạn chạy một quá trình đánh giá với một bộ công cụ kiểm tra, Copilot Studio sẽ:
1. Sử dụng tài khoản người dùng được kết nối để mô phỏng các cuộc hội thoại với agent, gửi từng câu hỏi trong trường hợp kiểm tra đến agent đó.
2. Thu thập phản hồi của agent.
3. Đo lường và phân tích sự thành công của mỗi phản hồi. Mỗi trường hợp kiểm tra sẽ nhận được kết quả Pass, Fail, Invalid hoặc Error dựa trên các tiêu chí của trường hợp kiểm tra.
4. Gán điểm Pass rate dựa trên tỷ lệ Pass / Fail của bộ công cụ test.
Bạn có thể xem Pass rate của mỗi lần chạy bộ công cụ test trên trang Evaluation của agent, trong mục Recent results. Để xem thêm các lần chạy bộ công cụ test, hãy chọn See all.

Xem và đánh giá phân tích chi tiết cho một trường hợp kiểm thử
Khi mở kết quả kiểm tra, bạn sẽ thấy chi tiết của lần chạy kiểm thử, danh sách các truy vấn được sử dụng trong kiểm thử, cách agent phản hồi và điểm Pass hoặc Fail.
Chọn một trường hợp kiểm thử trong danh sách để xem đánh giá chi tiết của từng phản hồi. Chọn All, Pass hoặc Fail để lọc các trường hợp theo kết quả.

Đánh giá bao gồm các phản hồi dự kiến và thực tế, lý do đằng sau kết quả kiểm thử, và kiến thức, chủ đề và công cụ mà agent đã sử dụng để phản hồi.

1. Kết quả đánh giá. Ví dụ này hiển thị chi tiết kết quả của một đánh giá chất lượng.
2. Chọn Show activity map để xem trình tự đầu vào, quyết định và đầu ra của agent trong một trường hợp thử nghiệm.
3. Bản ghi câu hỏi thử nghiệm và phản hồi của agent.
4. Các tài nguyên mà agent đã sử dụng trong bài kiểm tra. Chọn một tài nguyên để mở.
Bạn có thể cung cấp phản hồi cho Microsoft về hiệu quả đánh giá cho từng trường hợp thử nghiệm. Phản hồi này tập trung vào việc phương pháp đánh giá đã chọn đánh giá phản hồi hiệu quả như thế nào, chứ không phải liệu bản thân phản hồi có đúng hay không. Phản hồi của bạn giúp cải thiện chất lượng và độ chính xác của các đánh giá theo thời gian.
Để đánh giá một bài kiểm thử, hãy chọn biểu tượng ngón tay cái hướng lên (để gửi phản hồi tích cực về bài đánh giá) hoặc biểu tượng ngón tay cái hướng xuống (để gửi phản hồi tiêu cực về bài đánh giá) trong ngăn chi tiết bài kiểm thử. Khi biểu mẫu phản hồi mở ra, hãy cung cấp thêm chi tiết về đánh giá của bạn, rồi chọn Submit.
Một bộ công cụ test đánh giá có thể được chạy nhiều lần bởi nhiều "người tạo" cùng một agent. Người tạo có thể chạy các bài đánh giá bằng cách sử dụng những bộ công cụ test do những người tạo khác tạo ra. Người tạo có thể xem trạng thái chạy và các chỉ số kết quả của bất kỳ lần chạy kiểm thử nào, nhưng chỉ người tạo đã khởi tạo lần chạy kiểm thử mới có thể xem phản hồi của agent và giải thích kết quả.
So sánh kết quả kiểm thử
Bạn muốn kiểm thử một phiên bản của agent và xem những thay đổi về hiệu suất trước và sau khi bạn thực hiện các thay đổi. Bạn có thể so sánh hai lần chạy của cùng một bộ công cụ test bằng cách sử dụng công cụ Comparison with.
Để xem kết quả so sánh, bạn cần chạy cùng một bộ công cụ test ít nhất hai lần.
1. Trong trang Evaluation của agent, trong phần Recent test results, hãy mở lần chạy kiểm thử mà bạn muốn sử dụng làm cơ sở để so sánh.
2. Chọn menu drop-down Compare with, sau đó chọn thời gian và ngày chạy thử nghiệm bạn muốn so sánh với kết quả thử nghiệm hiện đang mở.

Trong danh sách Test cases, mũi tên cho thấy kết quả của trường hợp thử nghiệm nào đã được cải thiện khi thay đổi từ không đạt sang đạt, hoặc giảm xuống khi thay đổi từ đạt sang không đạt.
Chọn một trường hợp thử nghiệm để xem thêm chi tiết. Trong ngăn Evaluation summary, bạn có thể thấy sự so sánh trực tiếp điểm số thử nghiệm, với kết quả của lần chạy thử nghiệm hiện tại ở trên cùng.

Xuất kết quả test
Bạn có thể xuất kết quả thử nghiệm sang file CSV. File này liệt kê câu hỏi, câu trả lời dự kiến (nếu có), phương pháp thử nghiệm, điểm đạt (nếu có), câu trả lời của agent, kết quả thử nghiệm và phân tích cho mỗi trường hợp thử nghiệm.
1. Truy cập trang Evaluation của agent.
2. Trong phần Recent results, xuất kết quả thử nghiệm bằng cách thực hiện một trong các bước sau:
- Di chuột qua trường hợp thử nghiệm bạn muốn xuất, chọn ba dấu chấm (…) và sau đó chọn Export test results.
- Chọn trường hợp kiểm thử để mở, chọn ba dấu chấm (…) trong ngăn Evaluation summary, rồi chọn Export test results.
Kết quả kiểm thử sẽ được tải xuống dưới dạng file có tên bộ công cụ test của bạn là yourtestsetname.csv.
Bạn nên đọc
-
Đảm bảo tuân thủ các quy định của Copilot Studio
-
Lưu trữ dữ liệu địa lý trong Copilot Studio
-
Viết hướng dẫn cho agent
-
Dữ liệu, quyền riêng tư và bảo mật cho tìm kiếm web
-
Tạo bộ kiểm thử đàm thoại
-
Tự động hóa việc đánh giá agent bằng Power Platform API
-
Tạo và xóa agent
-
Kiểm tra Copilot Studio agent
-
Thay đổi các chi tiết của bộ công cụ test
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Những câu nói bá đạo của học sinh khiến ai cũng nhớ tới một thời cắp sách tới trường
3 ngày -

Cách tạo tài khoản ChatGPT nhanh
3 ngày 82 -

8 cách chuyển ảnh từ iPhone sang iPhone nhanh chóng
4 ngày -

Stt thay đổi bản thân, cap thay đổi bản thân tạo động lực trong cuộc sống
3 ngày -

Code Murder Mystery 2 mới nhất và cách nhập
3 ngày 9 -

Tổng hợp code Yong Heroes 2: Phong Vân Tái Khởi
4 ngày -

Diện tích hình trụ: Diện tích xung quanh hình trụ, diện tích toàn phần hình trụ
3 ngày 7 -

Cách download Windows 10, tải file ISO Windows 10 từ Microsoft
3 ngày 20 -

Xem quá trình lắp cấu trúc nặng 600 tấn của máy dò hạt ma tại đài quan sát dưới lòng đất
4 ngày -

Cách hủy đăng ký Telegram Premium
3 ngày 1
Hướng dẫn AI
Học IT
Hàm Excel
Download