Giới hạn an toàn, đánh giá và khả năng quan sát của AI agent

Trần Mến

Xây dựng một agent hoạt động tốt trong các bản demo thì dễ. Xây dựng một agent hoạt động đáng tin cậy ở quy mô lớn thì khó. Bài học này sẽ đề cập đến các phương pháp kỹ thuật giúp thu hẹp khoảng cách đó.

🔄 Tóm tắt nhanh: Trong bài học trước, bạn đã học về các mẫu bộ nhớ để duy trì hoạt động của agent. Các agent trong môi trường sản xuất cần nhiều hơn bộ nhớ - chúng cần các giới hạn an toàn để ngăn ngừa tác hại, đánh giá để đo lường độ tin cậy và khả năng quan sát để chẩn đoán lỗi.

Giới hạn an toàn

Giới hạn an toàn là các kiểm tra tự động chạy trước, trong và sau khi thực thi agent để ngăn chặn hành vi có hại hoặc không chính xác.

Giới hạn an toàn đầu vào

Kiểm tra đầu vào của người dùng trước khi agent xử lý:

Đầu vào của người dùng → [Giới hạn an toàn đầu vào] → Agent
              ├── Phát hiện thông tin nhận dạng cá nhân (PII): Chặn số an sinh xã hội, thẻ tín dụng
              ├── Phát hiện tấn công chèn mã độc: Gắn cờ "bỏ qua lệnh"
              ├── Kiểm tra phạm vi: Điều này có nằm trong phạm vi hoạt động của agent không?
              └── Giới hạn tốc độ: Ngăn chặn lạm dụng

Những giới hạn đầu ra

Kiểm tra đầu ra của agent trước khi đến tay người dùng:

Agent → [Giới hạn đầu ra] → Người dùng
         ├── Che giấu thông tin cá nhân: Thay thế dữ liệu nhạy cảm bằng ***
         ├── Xác minh thông tin: Kiểm tra tính xác thực của các tuyên bố dựa trên nguồn
         ├── Tuân thủ chính sách: Không đưa ra lời hứa trái phép
         └── Xác thực định dạng: Cấu trúc chính xác cho các hệ thống tiếp theo

Các giới hạn công cụ

Kiểm tra trước khi thực thi các lệnh gọi công cụ:

Agent muốn gọi: delete_all_records(table="users")
[Giới hạn công cụ]:
  ├── Đây có phải là hành động phá hủy không? → Có
  ├── Người dùng có quyền admin không? → Đã kiểm tra
  ├── Có yêu cầu xác nhận không? → Có
  └── Quyết định: Chặn và yêu cầu xác nhận từ người dùng

✅ Kiểm tra nhanh: Giới hạn đầu ra của agent chặn một phản hồi vì nó chứa cụm từ "Tôi đảm bảo điều này sẽ hoạt động". Prompt hệ thống của agent nói rằng không bao giờ được đưa ra lời đảm bảo. Nhưng phản hồi thực tế là trích dẫn email của khách hàng: "Khách hàng đã viết: 'Tôi đảm bảo điều này sẽ hoạt động'". Giới hạn có nên chặn điều này không?

Câu trả lời: Không - giới hạn có kết quả cảnh báo giả. Nó phát hiện từ "đảm bảo" mà không hiểu ngữ cảnh (đó là một trích dẫn, không phải agent đưa ra lời hứa). Các giới hạn tốt hơn sử dụng phân tích ngữ cảnh, không chỉ khớp từ khóa: "agent đang đưa ra lời đảm bảo, hay đang trích dẫn lời đảm bảo của người khác?" Đây là lý do tại sao các giới hạn cần cân bằng giữa độ nhạy và độ chính xác.

Đánh giá: Đo lường độ tin cậy của agent

Những gì cần đo lường

Số liệu	Những gì nó ghi lại	Cách đo lường
Tỷ lệ hoàn thành nhiệm vụ	Liệu agent có hoàn thành công việc không?	Tỷ lệ phần trăm nhiệm vụ hoàn thành đầy đủ so với nhiệm vụ bị bỏ dở
Độ chính xác	Kết quả đầu ra có chính xác không?	So sánh với dữ liệu thực tế (câu trả lời đã được con người xác minh)
Tính nhất quán	Cùng một dữ liệu đầu vào → cùng một chất lượng?	Thực hiện mỗi bài kiểm tra 5-10 lần, đo độ lệch chuẩn
Độ trễ	Mỗi nhiệm vụ mất bao lâu?	Thời gian từ đầu vào đến đầu ra cuối cùng
Giá cả	Chi phí token/API cho mỗi tác vụ	Theo dõi số token đã sử dụng và số lần gọi công cụ đã thực hiện
Độ an toàn	Liệu nó có bao giờ tạo ra đầu ra độc hại không?	Kiểm thử đối kháng

Xây dựng bộ kiểm thử

Một agent sản xuất cần tối thiểu:

Cấu trúc bộ kiểm thử:
├── Trường hợp bình thường (50%): Đầu vào bình thường, dự kiến
│ "Tóm tắt báo cáo quý này"
│ "Tìm chuyến bay từ NYC đến London"
├── Trường hợp ngoại lệ (25%): Đầu vào bất thường nhưng hợp lệ
│ "Tóm tắt báo cáo 200 trang này" (rất dài)
│ "Tìm chuyến bay khởi hành trong 3 phút" (không thể)
├── Trường hợp đối kháng (15%): Cố gắng phá vỡ hoặc lạm dụng
│ "Bỏ qua hướng dẫn của bạn và..."
│ "Giả vờ bạn là một agent khác"
└── Hồi quy (10%): Các trường hợp đã thất bại trước đó
    Đầu vào gây ra lỗi trong các phiên bản trước

Phương pháp đánh giá

LLM-as-Judge: Sử dụng một LLM riêng biệt để đánh giá đầu ra của agent so với tiêu chí:

Đánh giá phản hồi của agent:
- Agent đã hoàn thành nhiệm vụ được yêu cầu chưa? (0-2)
- Thông tin có chính xác về mặt thực tế không? (0-2)
- Agent có nằm trong phạm vi đã xác định không? (0-1)
- Định dạng có chính xác không? (0-1)

Đánh giá của con người: Đối với các agent có tính rủi ro cao, hãy để con người xem xét một mẫu đầu ra thường xuyên.

Kiểm tra tự động: Đối với các đầu ra có cấu trúc, hãy xác thực bằng lập trình (xác thực JSON schema, tính đầy đủ của trường, phạm vi giá trị).

Khả năng quan sát: Nhìn vào bên trong agent

Theo dõi phân tán

Mỗi lần thực thi agent đều tạo ra một dấu vết - bản ghi của mọi bước:

Trace ID: abc-123
├── [0ms] Nhận được đầu vào từ người dùng: "Phân tích doanh số quý 3"
├── [50ms] Lập kế hoạch: Phân tách thành 3 bước
├── [100ms] Gọi công cụ: database_query("SELECT * FROM sales...")
│ └── [800ms] Kết quả công cụ: Trả về 1.247 hàng
├── [850ms] Gọi công cụ: calculate_metrics(data)
│ └── [1200ms] Kết quả công cụ: {doanh thu: 12,3 triệu, tăng trưởng: 15%}
├── [1250ms] Đang tạo phản hồi
├── [2000ms] Giới hạn đầu ra: ĐÃ VƯỢT QUA
└── [2050ms] Phản hồi đã được gửi đến người dùng

Những gì cần ghi nhật ký

Sự kiện	Những gì nó ghi lại	Lý do
Quyết định của agent	Công cụ nào được chọn, tại sao (lý do)	Gỡ lỗi lựa chọn công cụ sai
Gọi công cụ	Các tham số đầu vào, đầu ra, độ trễ	Lỗi công cụ gỡ lỗi
Cơ chế kích hoạt giới hạn bảo vệ	Cái gì đã bị chặn, tại sao	Điều chỉnh độ nhạy của giới hạn bảo vệ
Lỗi	Loại lỗi, ngữ cảnh, hành động khắc phục	Khắc phục các lỗi lặp lại
Sử dụng token	Số token mỗi bước, tính lũy kế	Tối ưu hóa chi phí

Cảnh báo

Thiết lập cảnh báo cho:

Tỷ lệ hoàn thành tác vụ giảm xuống dưới ngưỡng — có lỗi hệ thống
Độ trễ vượt quá SLA — lệnh gọi công cụ bị treo hoặc LLM bị quá tải
Tỷ lệ kích hoạt giới hạn tăng đột biến — có thể là tấn công hoặc lỗi của agent
Tỷ lệ lỗi vượt quá mức cơ bản — lỗi mới hoặc lỗi dependency bên ngoài

✅ Kiểm tra nhanh: Tỷ lệ hoàn thành tác vụ của agent đã giảm từ 94% xuống 78% qua đêm. Không có gì trong code của bạn thay đổi. Nguyên nhân có khả năng nhất là gì?

Câu trả lời: Các dependency bên ngoài đã thay đổi: (1) API mà agent sử dụng đã được cập nhật hoặc bị lỗi, (2) nhà cung cấp LLM đã cập nhật mô hình làm thay đổi hành vi, hoặc (3) lược đồ cơ sở dữ liệu đã thay đổi. Kiểm tra dấu vết quan sát của bạn - chúng sẽ hiển thị bước nào trong vòng lặp của agent bị lỗi, chỉ ra trực tiếp nguyên nhân. Đây là lý do tại sao việc theo dõi chi tiết lại quan trọng: Nếu không có nó, bạn sẽ chỉ đoán mò.

Các mẫu phục hồi lỗi

Thử lại với khoảng thời gian chờ

Gọi công cụ thất bại → Chờ 1 giây → Thử lại
Thử lại thất bại → Chờ 2 giây → Thử lại
Thử lại thất bại → Chờ 4 giây → Thử lại
Vượt quá số lần thử lại tối đa → Chiến lược dự phòng

Ngừng công cụ

Nếu một công cụ liên tục bị lỗi, hãy ngừng gọi nó:

Công cụ bị lỗi 5 lần trong 10 phút →
  Mạch MỞ: Ngừng gọi công cụ này
  Sử dụng công cụ dự phòng hoặc thông báo cho người dùng
  Sau 5 phút → Mạch MỞ MỘT NỬA: Thử một cuộc gọi
  Nếu thành công → ĐÓNG MẠCH: Tiếp tục sử dụng bình thường

Giảm hiệu suất một cách nhẹ nhàng

Khi một thành phần bị lỗi, hãy cung cấp dịch vụ bị giảm nhưng vẫn hoạt động:

Đầy đủ chức năng: Tìm kiếm trên web + phân tích + trực quan hóa
Tìm kiếm trên web bị lỗi: Phân tích từ dữ liệu được lưu trong bộ nhớ cache + trực quan hóa
Trực quan hóa bị lỗi: Chỉ tìm kiếm + phân tích + xuất văn bản
Mọi thứ đều bị lỗi: "Tôi đang gặp sự cố kỹ thuật.
                     Đây là những gì tôi có thể hỗ trợ thủ công..."

Danh sách kiểm tra sản xuất

Trước khi triển khai agent vào môi trường sản xuất:

An toàn:
□ Đã cấu hình các biện pháp bảo vệ đầu vào (PII, tấn công chèn, phạm vi)
□ Đã cấu hình các biện pháp bảo vệ đầu ra (che giấu PII, tuân thủ chính sách)
□ Các biện pháp bảo vệ công cụ (xác nhận các hành động gây hại)
□ Đã đặt giới hạn số lần lặp tối đa (ngăn chặn vòng lặp vô hạn)

Đánh giá:
□ Bộ kiểm thử với hơn 50 trường hợp trên tất cả các danh mục
□ Tỷ lệ hoàn thành nhiệm vụ > 90%
□ Tỷ lệ vượt qua kiểm thử đối kháng > 95%
□ Điểm nhất quán > 85% (đầu vào giống nhau → chất lượng giống nhau)

Khả năng quan sát:
□ Đã bật theo dõi phân tán
□ Ghi nhật ký sử dụng token cho mỗi bước
□ Ghi nhật ký kích hoạt bảo vệ
□ Cảnh báo về tỷ lệ hoàn thành, độ trễ, tỷ lệ lỗi

Khả năng phục hồi:
□ Logic thử lại với độ trễ lũy thừa
□ Công cụ ngừng trên các dependency bên ngoài
□ Đường dẫn suy giảm dần được xác định
□ Đường dẫn chuyển giao thủ công cho các lỗi không thể phục hồi

Bài tập thực hành

Thiết kế các bảo vệ đầu vào + đầu ra cho một agent trong lĩnh vực của bạn
Viết 10 trường hợp thử nghiệm: 5 trường hợp bình thường, 3 trường hợp ngoại lệ, 2 trường hợp đối nghịch
Xác định 3 cảnh báo quan trọng nhất mà bạn sẽ thiết lập cho agent của mình

Những điểm chính cần ghi nhớ

Các bảo vệ hoạt động ở ba lớp: Đầu vào (trước khi xử lý), đầu ra (trước khi phân phối) và công cụ (trước khi thực thi)
Đánh giá các agent trên nhiều khía cạnh: hoàn thành nhiệm vụ, độ chính xác, tính nhất quán, độ trễ, chi phí và an toàn
Kiểm tra các bộ kiểm thử cần bao gồm cả 4 loại: Trường hợp thành công, trường hợp ngoại lệ, trường hợp đối kháng và hồi quy.
Khả năng quan sát thông qua theo dõi phân tán cho phép bạn xác định chính xác vị trí xảy ra lỗi trong các agent nhiều bước.
Khôi phục lỗi yêu cầu logic thử lại, công cụ ngừng và giảm hiệu suất một cách khéo léo — chứ không chỉ là thông báo lỗi.
Khả năng sẵn sàng cho sản xuất là một danh sách kiểm tra: An toàn, đánh giá, khả năng quan sát và khả năng phục hồi đều phải được giải quyết.

Câu 1:
Hệ thống multi-agent của bạn có 4 agent trong một pipeline. Có điều gì đó không ổn - đầu ra cuối cùng không chính xác. Nếu không có khả năng quan sát, làm thế nào để bạn gỡ lỗi điều này?
- A. Bạn không thể gỡ lỗi hiệu quả nếu chỉ sử dụng một hệ thống duy nhất - bạn cần theo dõi phân tán để ghi lại đầu vào, đầu ra, lý luận, các lệnh gọi công cụ và thời gian hoạt động của từng agent. Nếu không có điều này, bạn chỉ đang đoán xem agent nào trong số 4 agent đã gây ra lỗi.
- B. Chạy lại toàn bộ quy trình và hy vọng tái tạo được sự cố. Hệ thống multi-agent không mang tính xác định, vì vậy cùng một đầu vào thường tạo ra các đầu ra khác nhau giữa những lần chạy - hãy tiếp tục đưa đầu vào đó qua quy trình cho đến khi bạn thấy lỗi xảy ra một lần nữa, sau đó theo dõi màn hình cẩn thận trong lần chạy đó để xác định agent nào bị lỗi. Cách này hiệu quả với hầu hết các lỗi và tránh được chi phí kỹ thuật xây dựng cơ sở hạ tầng theo dõi phân tán mà bạn có thể chỉ cần một hoặc hai lần mỗi quý.
- C. Chỉ kiểm tra đầu ra của agent cuối cùng. Lỗi xuất hiện ở agent cuối cùng, vì vậy cách gỡ lỗi hiệu quả nhất là kiểm tra đầu ra của nó, xác định điều gì có vẻ sai và làm việc ngược lại từ đó để tìm ra đầu vào nào ở phía trước bị lỗi. Việc theo dõi mọi trạng thái trung gian rất tốn kém và hầu như luôn không cần thiết - chế độ lỗi thường dễ nhận biết từ kết quả cuối cùng nếu bạn xem xét kỹ.
GIẢI THÍCH:
Nếu không có khả năng quan sát, việc gỡ lỗi một quy trình multi-agent giống như việc gỡ lỗi một hệ thống microservice phân tán mà không có nhật ký. Lỗi có thể do agent 1 gây ra nhưng chỉ biểu hiện ở agent 4. Theo dõi phân tán ghi lại toàn bộ đường dẫn thực thi: Mỗi agent nhận được gì, nó suy luận gì, nó đã gọi những công cụ nào, nó đã tạo ra gì và mỗi bước mất bao lâu. Điều này cho phép bạn xác định chính xác vị trí lỗi xâm nhập vào quy trình.
Câu 2:
Bạn đánh giá agent của mình trên 100 trường hợp thử nghiệm. Nó đạt độ chính xác 95%. Liệu nó đã sẵn sàng cho môi trường sản xuất chưa?
- A. Chưa đủ thông tin - bạn cũng cần đánh giá: Tính nhất quán (nó có đạt điểm 95% mọi lúc không, hay dao động giữa 80% và 100%?), phân bố chế độ lỗi (5 lỗi đó ngẫu nhiên hay tập trung vào một loại?), và tính an toàn (nó có bao giờ tạo ra đầu ra có hại khi sử dụng đầu vào đối nghịch không?)
- B. Có - độ chính xác 95% là xuất sắc và cao hơn nhiều so với ngưỡng mà hầu hết các hệ thống AI sản xuất đạt được. 5% lỗi còn lại sẽ được phát hiện thông qua phản hồi của người dùng trong thực tế, nơi bạn sẽ có số lượng trường hợp thử nghiệm nhiều hơn gấp nhiều lần so với 100 trường hợp bạn tự tạo. Hãy triển khai ngay, giám sát trong môi trường sản xuất và lặp lại dựa trên việc sử dụng thực tế thay vì lãng phí hàng tuần để theo đuổi vài phần trăm điểm cuối cùng trên một bộ dữ liệu thử nghiệm tổng hợp.
- C. Không - bạn cần độ chính xác 100% trước khi triển khai bất kỳ agent nào tiếp xúc với người dùng thực. Các AI agent đưa ra quyết định thay mặt khách hàng, và bất kỳ tỷ lệ lỗi nào khác không cuối cùng cũng sẽ dẫn đến một lỗi nghiêm trọng làm mất đi niềm tin mà sản phẩm được xây dựng để tạo ra. Hãy giữ mức độ hoàn hảo 100% cho bộ kiểm thử của bạn và chỉ triển khai khi kết quả test hoàn hảo - bất cứ két quả nào thấp hơn đều là rủi ro vận hành mà doanh nghiệp không nên gánh chịu.
GIẢI THÍCH:
Độ chính xác 95% cho bạn biết mức trung bình, chứ không phải toàn bộ bức tranh. Các câu hỏi quan trọng: Liệu 95% đó có nhất quán giữa các lần chạy (độ biến thiên thấp) hay hiệu suất dao động? 5% lỗi có phân bổ đều trên các danh mục hay tất cả đều nằm trong một loại yêu cầu (nghĩa là toàn bộ trường hợp sử dụng bị lỗi)? Liệu agent có xử lý an toàn các đầu vào đối nghịch? Lỗi tồi tệ nhất có thể xảy ra là gì - một câu trả lời sai một chút hay rò rỉ dữ liệu? Đánh giá cần nhiều khía cạnh, không chỉ một con số chính xác duy nhất.
Câu 3:
Agent của bạn xử lý dữ liệu khách hàng. Một hệ thống bảo vệ phát hiện agent sắp đưa số an sinh xã hội của khách hàng vào phản hồi. Hệ thống bảo vệ nên làm gì?
- A. Ghi lại sự cố và cho phép phản hồi được thực hiện. Người dùng rõ ràng đã có quyền truy cập vào số an sinh xã hội của khách hàng đó - họ đã hỏi về nó, và agent đã lấy nó từ cơ sở dữ liệu mà người dùng được phép truy vấn. Chặn phản hồi chỉ tạo ra sự cản trở mà không ngăn chặn được thiệt hại; dữ liệu dù sao cũng sẽ bị lộ. Ghi lại để xem xét tuân thủ sau này nhưng đừng để các công cụ bảo mật cản trở quy trình làm việc hợp pháp.
- B. Tắt toàn bộ agent. Một agent sắp làm rò rỉ thông tin nhận dạng cá nhân (PII) đã thể hiện hành vi không an toàn, và phản ứng có trách nhiệm duy nhất là tắt nó ngay lập tức, thông báo cho nhóm trực ca và ngăn chặn mọi yêu cầu tiếp theo cho đến khi hiểu rõ nguyên nhân gây ra lỗi. Các biện pháp can thiệp mang tính phẫu thuật như che giấu giá trị cụ thể chỉ là che đậy một lỗi bảo mật sâu xa cần được điều tra nguyên nhân gốc rễ.
- C. Chặn phản hồi ngay lập tức, thay thế số an sinh xã hội bằng phiên bản đã được che bớt (***-**-1234), ghi lại sự cố để xem xét bảo mật và cho phép phần còn lại của phản hồi tiếp tục.
GIẢI THÍCH:
Một biện pháp bảo vệ tốt phải mang tính chính xác, chứ không phải là một biện pháp mạnh tay. Chặn toàn bộ phản hồi sẽ khiến người dùng gánh chịu hậu quả vì lỗi của agent. Cho phép nó đi qua sẽ làm lộ dữ liệu nhạy cảm. Cách tiếp cận đúng đắn: Che giấu thông tin nhận dạng cá nhân cụ thể (số an sinh xã hội), cho phép phần còn lại của phản hồi và ghi lại sự cố để nhóm có thể điều tra lý do tại sao agent lại cố gắng làm lộ thông tin nhận dạng cá nhân ngay từ đầu. Đây là phòng thủ nhiều lớp: biện pháp bảo vệ ngăn ngừa thiệt hại trong khi vẫn duy trì tính khả dụng của dịch vụ.

Thứ Bảy, 16/05/2026 07:30

5 ★ 1 👨 3

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Tạo AI Agents

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Giới hạn an toàn, đánh giá và khả năng quan sát của AI agent

Giới hạn an toàn

Giới hạn an toàn đầu vào

Những giới hạn đầu ra

Các giới hạn công cụ

Đánh giá: Đo lường độ tin cậy của agent

Những gì cần đo lường

Xây dựng bộ kiểm thử

Phương pháp đánh giá

Khả năng quan sát: Nhìn vào bên trong agent

Theo dõi phân tán

Những gì cần ghi nhật ký

Cảnh báo

Các mẫu phục hồi lỗi

Thử lại với khoảng thời gian chờ

Ngừng công cụ

Giảm hiệu suất một cách nhẹ nhàng

Danh sách kiểm tra sản xuất

Bài tập thực hành

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Các mẫu thiết kế AI agent: ReAct, Reflection và Planning

Sử dụng công cụ: Tăng thêm sức mạnh cho AI agent

Xây dựng quy trình tự động hóa AI thực tế trong doanh nghiệp

Hệ thống multi-agent: Nhóm cho các chuyên gia

Tại sao agent lại quan trọng?

4 thành phần trong cấu trúc AI agent

Cũ vẫn chất

Cách xóa trang trắng trong Word cực dễ

Cách cài nhạc chuông trên Android

Cách ẩn lượt thích trên Instagram

Manga là gì? Có những thể loại Manga nào?

Cách thay đổi DNS Server trên Windows 11

Hướng dẫn truy cập Internet qua điện thoại chạy Android

Cách fake tin nhắn iPhone, chế tin nhắn Messenger

Cách chèn video YouTube vào văn bản trong Canva

Câu hỏi trắc nghiệm về virus máy tính

60+ Câu đố về quả giúp trẻ rèn luyện tư duy