Tổng quan về đánh giá agent
Khi các AI agent đảm nhận vai trò quan trọng trong các quy trình kinh doanh, nhu cầu về thử nghiệm đáng tin cậy và có thể lặp lại trở nên thiết yếu. Đánh giá agent cho phép bạn tạo ra các bài kiểm tra mô phỏng những tình huống thực tế cho agent của mình.
Các bài kiểm tra này bao gồm nhiều câu hỏi và cuộc hội thoại nhanh hơn so với thử nghiệm thủ công, từng trường hợp một. Sau đó, bạn có thể đo lường độ chính xác, tính liên quan và chất lượng câu trả lời từ các tương tác của agent, dựa trên thông tin mà agent có thể truy cập. Bằng cách sử dụng kết quả từ công cụ kiểm tra, bạn có thể tối ưu hóa hành vi của agent và xác nhận rằng agent đáp ứng các yêu cầu về chất lượng và kinh doanh của bạn.
Tại sao nên sử dụng thử nghiệm tự động?
Đánh giá agent cung cấp thử nghiệm tự động, có cấu trúc. Nó giúp phát hiện sớm các vấn đề, giảm nguy cơ trả lời sai và duy trì chất lượng khi agent phát triển. Quá trình này mang lại hình thức đảm bảo chất lượng tự động, có thể lặp lại cho việc thử nghiệm agent. Nó đảm bảo agent đáp ứng các tiêu chuẩn về độ chính xác và độ tin cậy của doanh nghiệp bạn và cung cấp sự minh bạch về hiệu suất của nó. Nó có những ưu điểm khác biệt so với thử nghiệm bằng cách sử dụng test chat.
Bạn chạy các bài đánh giá và xem kết quả bằng giao diện Copilot Studio, thông qua API REST của Power Platform hoặc bằng cách thêm các hành động trong công cụ, flow hoặc Power Automate.
Đánh giá agent đo lường tính chính xác và hiệu suất, chứ không phải các vấn đề về đạo đức hoặc an toàn của AI. Một agent có thể vượt qua tất cả các bài kiểm tra đánh giá nhưng vẫn có thể đưa ra câu trả lời không phù hợp cho một câu hỏi. Khách hàng vẫn nên sử dụng các đánh giá AI có trách nhiệm và bộ lọc an toàn nội dung; những bài đánh giá không thay thế các đánh giá và bộ lọc đó.
Hạn chế của Government Community Cloud
Việc đánh giá agent trong môi trường Government Community Cloud (GCC) có những hạn chế sau:
- Người tạo không thể thêm profile người dùng vào bộ công cụ test của họ. Tuy nhiên, người tạo vẫn có thể chạy các bài đánh giá mà không cần profile người dùng.
- Người tạo không thể sử dụng phương pháp kiểm thử tương đồng cho các bài đánh giá. Tất cả những phương pháp kiểm thử khác đều khả dụng.
Cách thức hoạt động của tính năng đánh giá agent
Copilot Studio sử dụng một trường hợp kiểm thử cho mỗi lần đánh giá agent. Mỗi trường hợp kiểm thử là một tương tác duy nhất mô phỏng cách người dùng tương tác với agent của bạn. Tương tác có thể là một câu hỏi duy nhất hoặc toàn bộ cuộc hội thoại.
Một trường hợp thử nghiệm cũng có thể bao gồm câu trả lời mà bạn mong đợi agent của mình sẽ đưa ra. Ví dụ:
- Câu hỏi: Giờ làm việc của bạn là gì?
- Câu trả lời mong đợi: Chúng tôi mở cửa từ 9 giờ sáng đến 5 giờ chiều, từ thứ Hai đến thứ Sáu.
Bằng cách sử dụng đánh giá agent, bạn có thể tạo, nhập hoặc tự viết một nhóm các trường hợp thử nghiệm. Nhóm các trường hợp thử nghiệm này được gọi là một bộ công cụ test. Một bộ công cụ test cho phép bạn:
- Chạy nhiều trường hợp thử nghiệm bao gồm nhiều khả năng khác nhau cùng một lúc, thay vì hỏi agent của bạn từng câu hỏi một.
- Phân tích hiệu suất của agent với điểm số tổng hợp dễ hiểu và cũng có thể xem xét chi tiết từng trường hợp thử nghiệm riêng lẻ.
- Kiểm tra các thay đổi đối với agent của bạn bằng cách sử dụng cùng một bộ công cụ test, để bạn có một tiêu chuẩn khách quan để đo lường và so sánh những thay đổi về hiệu suất.
- Nhanh chóng tạo các bộ công cụ test mới hoặc sửa đổi những bộ công cụ test hiện có để bao gồm các khả năng hoặc yêu cầu thay đổi của agent.
Mỗi bài test có thể đánh giá agent của bạn bằng nhiều phương pháp thử nghiệm cùng một lúc.
Bạn cũng có thể chọn một profile người dùng để đóng vai trò là người dùng được mô phỏng. Hệ thống có thể được cấu hình để phản hồi cho người dùng khác nhau theo những cách khác nhau, hoặc cho phép truy cập vào tài nguyên theo những cách khác nhau.
Khi bạn chọn một bộ công cụ test và chạy đánh giá hệ thống, Copilot Studio sẽ gửi các câu hỏi trong những trường hợp kiểm thử, ghi lại phản hồi của hệ thống, so sánh các phản hồi đó với những phản hồi dự kiến hoặc tiêu chuẩn chất lượng, và gán điểm cho từng trường hợp kiểm thử. Bạn cũng có thể xem chi tiết, bản ghi và bản đồ hoạt động cho từng trường hợp kiểm thử và các tài nguyên mà hệ thống đã sử dụng để tạo ra phản hồi.
Xây dựng chiến lược đánh giá toàn diện
Trước khi chạy đánh giá, hãy xác định thành công đối với hệ thống và quyết định những kịch bản nào quan trọng nhất đối với kết quả kinh doanh của bạn. Một chiến lược rõ ràng giúp bạn chọn đúng phương pháp test, ưu tiên các trường hợp kiểm thử có tác động cao và diễn giải kết quả trong bối cảnh phù hợp.
- Sử dụng Kiến trúc giải pháp hệ thống: Framework đánh giá để ánh xạ các mục tiêu kinh doanh với các chiều đánh giá có thể đo lường và những phương pháp chấm điểm.
- Sử dụng Thiết kế và vận hành đánh giá hệ thống để xây dựng quy trình đánh giá có thể lặp lại, hỗ trợ cải tiến chất lượng liên tục.
Tích hợp đánh giá vào các flow tự động
Đánh giá agent hỗ trợ tự động hóa để người tạo có thể chạy đánh giá mà không cần can thiệp thủ công. Bằng cách sử dụng API REST hoặc Power Platform connector, bạn có thể lập trình để kích hoạt các lần chạy đánh giá và tích hợp thử nghiệm vào những quy trình làm việc tự động như tích hợp liên tục và triển khai liên tục (CI/CD). Cách tiếp cận này cho phép bạn chạy các bộ công cụ test trên quy mô lớn và xác thực hành vi của agent khi có thay đổi được đưa ra, mà không cần thực hiện thủ công trong Copilot Studio.
Test chat so với đánh giá agent
Mỗi phương pháp thử nghiệm cung cấp cho bạn những hiểu biết khác nhau về phẩm chất và hành vi của agent:
Test chat:
- Nhận và trả lời một câu hỏi tại một thời điểm. Khó có thể lặp lại cùng một bài kiểm tra nhiều lần.
- Cho phép bạn kiểm tra toàn bộ phiên làm việc chứa nhiều tin nhắn.
- Cho phép bạn tương tác với agent của mình với tư cách người dùng thông qua giao diện trò chuyện.
Đánh giá agent:
- Có thể tạo và chạy nhiều trường hợp kiểm thử cùng một lúc bằng cách sử dụng bộ công cụ test. Bạn có thể lặp lại các bài kiểm thử bằng cách sử dụng cùng một bộ công cụ test.
- Có thể kiểm tra một câu hỏi và một câu trả lời cho mỗi trường hợp kiểm thử, hoặc một cuộc hội thoại cho mỗi trường hợp kiểm thử. Tuy nhiên, bạn có ít quyền kiểm soát các cuộc hội thoại hơn so với khi sử dụng tính năng trò chuyện thử nghiệm.
- Chọn các profile người dùng khác nhau để mô phỏng những người dùng khác nhau mà không cần phải tự mình hoàn thành các tương tác.
Khi kiểm tra agent, hãy sử dụng cả tính năng test chat và đánh giá agent để có cái nhìn toàn diện về agent của bạn.
Bạn nên đọc
-
Viết hướng dẫn cho agent
-
Dữ liệu, quyền riêng tư và bảo mật cho tìm kiếm web
-
Tạo và xóa agent
-
Những câu hỏi thường gặp về bảo mật Copilot Studio
-
Kiểm tra Copilot Studio agent
-
Trạng thái bảo vệ Agent runtime
-
Tạo bộ kiểm thử phản hồi đơn
-
Tìm kiếm hỗ trợ và gửi phản hồi cho Copilot Studio
-
Các khái niệm chính - Bảo mật và quản trị Copilot Studio
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Mừng Tết Bính Ngọ, nhận lì xì tới 52.268 điểm Viettel++
3 ngày 1 -

8 cách chuyển ảnh từ iPhone sang iPhone nhanh chóng
3 ngày -

Tổng hợp code Yong Heroes 2: Phong Vân Tái Khởi
3 ngày -

Những bài thơ về Mẹ hay và ý nghĩa chạm tới trái tim người đọc
3 ngày 2 -

Làm thế nào để sử dụng iMessage trên máy tính Windows?
3 ngày -

Những câu nói hay về người 2 mặt, về lòng người khó đoán
3 ngày -

Cách ngừng cập nhật Windows trên PC
3 ngày 18 -

Xem quá trình lắp cấu trúc nặng 600 tấn của máy dò hạt ma tại đài quan sát dưới lòng đất
3 ngày -

Hướng dẫn tắt Microsoft Edge trên Windows
3 ngày -

Công cụ tính điểm tốt nghiệp THPT 2026 cực kì chính xác
3 ngày 2
Hướng dẫn AI
Học IT
Hàm Excel
Download