4 thành phần trong cấu trúc AI agent

Trần Mến

Khám phá 4 thành phần của mỗi AI agent: Bộ não LLM, công cụ, bộ nhớ và lập kế hoạch. Hiểu cách chúng tương tác thông qua vòng lặp của agent.

Trong bài học trước, bạn đã biết rằng các agent có 4 thành phần: Bộ não LLM, công cụ, bộ nhớ và lập kế hoạch. Bây giờ, hãy xem xét cách mỗi thành phần hoạt động và cách chúng kết hợp thành vòng lặp của agent.

Thành phần 1: Bộ não LLM

LLM là công cụ suy luận. Nó không chỉ tạo ra văn bản - nó đưa ra quyết định:

Công cụ nào cần sử dụng — "Tôi cần tìm kiếm trên web, chứ không phải cơ sở dữ liệu"
Đối số nào cần truyền — "Tìm kiếm 'Doanh thu quý 3 của Acme Corp năm 2025'"
Khi nào dừng lại — "Tôi đã có đủ thông tin để trả lời câu hỏi"
Cách khắc phục — "Công cụ đó đã thất bại, hãy để tôi thử một cách tiếp cận khác"

Bộ não xử lý mọi thứ thông qua một prompt hệ thống xác định vai trò, công cụ có sẵn và các ràng buộc hành vi của nó. Hãy coi nó như bản mô tả công việc của agent cộng với hướng dẫn sử dụng.

Cấu trúc prompt hệ thống của agent:
├── Vai trò: "Bạn là trợ lý nghiên cứu..."
├── Công cụ có sẵn: [web_search, file_read, calculator, ...]
├── Quy tắc hành vi: "Luôn trích dẫn nguồn. Không bao giờ bịa đặt dữ liệu."
├── Định dạng đầu ra: "Trả về kết quả dưới dạng JSON kèm điểm tin cậy."
└── Xử lý lỗi: "Nếu một công cụ bị lỗi, hãy thử các công cụ thay thế trước khi hỏi người dùng."

✅ Kiểm tra nhanh: Prompt hệ thống của agent cho biết "Bạn có quyền truy cập vào: web_search, calculator, email_send". Người dùng hỏi: "Thủ đô của Pháp là gì?". Agent có nên gọi web_search không?

Câu trả lời: Không nhất thiết. LLM đã biết thủ đô của Pháp rồi. Một agent được thiết kế tốt chỉ sử dụng công cụ khi kiến thức của chính LLM không đủ - ví dụ như dữ liệu thời gian thực, các phép tính vượt quá khả năng của nó, hoặc những hành động như gửi email. Sử dụng công cụ cho những thông tin đã biết sẽ lãng phí thời gian và tiền bạc.

Thành phần 2: Công cụ

Công cụ là cơ chế cho phép các agent hoạt động trong thế giới thực. Không có công cụ, agent chỉ là một chatbot.

Giao diện công cụ

Mỗi công cụ có 3 phần:

{
  "name": "web_search",
  "description": "Tìm kiếm thông tin hiện tại trên web. Sử dụng khi bạn cần dữ liệu mới hơn thời điểm kết thúc khóa đào tạo hoặc thông tin thời gian thực.",
  "parameters": {
    "query": {"type": "string", "description": "The search query"},
    "max_results": {"type": "integer", "default": 5}
  }
}

LLM đọc mô tả để quyết định khi nào sử dụng công cụ. Mô tả rõ ràng = lựa chọn công cụ tốt hơn. Mô tả mơ hồ = agent gọi nhầm công cụ.

Các loại công cụ phổ biến

Loại	Ví dụ	Thời điểm sử dụng
Thông tin	Tìm kiếm trên web, truy vấn cơ sở dữ liệu, đọc file	Agent cần dữ liệu mà nó không có
Tính toán	Máy tính, thực thi code, phân tích dữ liệu	Các nhiệm vụ đòi hỏi tính toán hoặc logic chính xác
Giao tiếp	Gửi email, tin nhắn Slack, gọi API	Agent cần tương tác với các hệ thống bên ngoài
Sáng tạo	Ghi file, tạo ảnh, viết code	Agent tạo ra các artifact

Thành phần 3: Bộ nhớ

Bộ nhớ cung cấp cho các agent ngữ cảnh tồn tại lâu dài hơn một tin nhắn duy nhất.

Bộ nhớ ngắn hạn (Ngữ cảnh hội thoại)

Mọi thứ trong cuộc hội thoại hiện tại: Tin nhắn của người dùng, phản hồi của agent, kết quả công cụ. Tất cả đều nằm trong cửa sổ ngữ cảnh của LLM và biến mất khi cuộc hội thoại kết thúc.

Hạn chế: Cửa sổ ngữ cảnh có giới hạn. Cửa sổ 128K token nghe có vẻ lớn, nhưng một agent xử lý tài liệu và kết quả công cụ có thể nhanh chóng làm đầy nó.

Bộ nhớ dài hạn (Lưu trữ bền vững)

Thông tin tồn tại xuyên suốt các cuộc hội thoại:

Sở thích của người dùng: "Người dùng này thích câu trả lời ngắn gọn với các gạch đầu dòng"
Các tương tác trước đó: "Tuần trước, chúng ta đã thảo luận về ngân sách quý 3 của họ - 50.000 USD cho tiếp thị"
Kiến thức đã học: "API của công ty sử dụng các endpoint v3, không phải v2"

Bộ nhớ dài hạn thường được lưu trữ trong cơ sở dữ liệu vector hoặc bộ nhớ có cấu trúc, được truy xuất khi có liên quan đến nhiệm vụ hiện tại.

✅ Kiểm tra nhanh: Một agent hỗ trợ quản lý dự án nhớ rằng "hạn chót đã được dời sang ngày 15 tháng 3" từ một cuộc trò chuyện hai tuần trước. Nhưng người dùng vừa nói "hạn chót mới là ngày 1 tháng 4". agent nên sử dụng thông tin nào?

Đáp án: Ngày 1 tháng 4 - thông tin mới nhất sẽ được ưu tiên hơn thông tin cũ. Đây là một thách thức quan trọng trong quản lý bộ nhớ: Các agent cần truy xuất thông tin theo thứ tự ưu tiên để thông tin mới hơn được ưu tiên hơn so với thông tin lỗi thời. Nếu không có điều này, các agent sẽ xử lý dữ liệu cũ.

Thành phần 4: Lập kế hoạch

Lập kế hoạch là cách các agent xử lý những nhiệm vụ quá phức tạp đối với một hành động duy nhất.

Lập kế hoạch đơn giản (Tuần tự)

Nhiệm vụ: "Tóm tắt 3 tin tức hàng đầu về AI hôm nay"

Kế hoạch:
1. Tìm kiếm trên web "tin tức AI hôm nay"
2. Đọc 3 kết quả hàng đầu
3. Tóm tắt mỗi tin tức trong 2 câu
4. Kết hợp thành một bản tóm tắt duy nhất

Lập kế hoạch động (Thích ứng)

Nhiệm vụ: "Tìm và sửa lỗi trong hệ thống đăng nhập của chúng tôi"

Kế hoạch ban đầu:
1. Đọc mã đăng nhập
2. Xác định mẫu lỗi
→ Quan sát: Lỗi là do hết thời gian chờ của cơ sở dữ liệu
Kế hoạch sửa đổi:
3. Kiểm tra cài đặt kết nối cơ sở dữ liệu
4. Kiểm tra hiệu suất truy vấn
→ Quan sát: Truy vấn mất 8 giây trên các bảng người dùng lớn
Kế hoạch sửa đổi:
5. Thêm chỉ mục vào cột tìm kiếm người dùng
6. Kiểm tra với cùng một dữ liệu đầu vào
7. Xác minh rằng bản sửa lỗi đã giải quyết được lỗi ban đầu

Kế hoạch thay đổi dựa trên những gì agent phát hiện ra. Lập kế hoạch thích ứng này là điều làm cho các agent trở nên mạnh mẽ đối với những nhiệm vụ không giới hạn.

Vòng lặp agent

Cả 4 thành phần hoạt động cùng nhau trong một chu trình:

         ┌──────────────────────────────────┐
         │         1. NHẬN THỨC               │
         │ Đọc yêu cầu của người dùng + ngữ cảnh      │
         │ Khôi phục những ký ức liên quan       │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         2. KẾ HOẠCH                   │
         │  Chia nhỏ nhiệm vụ thành các bước            │
         │  Chọn hành động tiếp theo               │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         3. HÀNH ĐỘNG                    │
         │  Gọi công cụ hoặc tạo phản hồi   │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         4. QUAN SÁT                │
         │  Kết quả công cụ xử lý              │
         │  Cập nhật bộ nhớ                    │
         │  Kiểm tra xem nhiệm vụ đã hoàn thành chưa        │
         └──────────────┬───────────────────┘
                        │
                   Nhiệm vụ đã hoàn thành? ──Không──→ Trở lại KẾ HOẠCH
                        │
                       Có
                        ▼
                   Trả về kết quả

Vòng lặp này chạy cho đến khi agent xác định nhiệm vụ đã hoàn thành - hoặc đạt đến giới hạn số lần lặp tối đa (một rào cản an toàn).

Bài tập thực hành

Chọn một nhiệm vụ bạn thực hiện hàng tuần (lập lịch, báo cáo, phân loại email)
Phân tích nhiệm vụ đó theo 4 thành phần: Não bộ cần kiến thức gì? Công cụ nào sẽ thực hiện nhiệm vụ? Bộ nhớ nào được lưu giữ qua các phiên? Trình tự lập kế hoạch là gì?
Xác định điểm mà một cuộc gọi LLM đơn lẻ sẽ thất bại và tại sao vòng lặp lại cần thiết

Những điểm chính cần ghi nhớ

Não LLM suy luận và đưa ra quyết định - nó là công cụ ra quyết định của agent, chứ không chỉ là một trình tạo văn bản
Các công cụ biến đổi agent từ trạng thái hội thoại sang trạng thái có thể hành động - chúng là yếu tố phân biệt agent với chatbot
Bộ nhớ có hai lớp: Ngắn hạn (ngữ cảnh hội thoại) và dài hạn (lưu giữ qua các phiên)
Lập kế hoạch xử lý sự phức tạp thông qua việc phân tách - chia nhỏ các nhiệm vụ lớn thành những bước dễ quản lý
Vòng lặp của agent (nhận thức → lập kế hoạch → hành động → quan sát → lặp lại) liên kết cả 4 thành phần lại với nhau

Câu 1:
Một agent có quyền truy cập vào 50 công cụ. Đối với một nhiệm vụ đơn giản như 'Ở Tokyo giờ là mấy giờ?', nó xem xét tất cả 50 công cụ trước khi chọn công cụ múi giờ. Vấn đề là gì?
- A. Công cụ múi giờ được chọn không chính xác
- B. 50 công cụ là quá nhiều để cài đặt
- C. Chi phí lựa chọn công cụ - việc đánh giá 50 công cụ cho một nhiệm vụ đơn giản lãng phí token và làm tăng độ trễ. Các kiến trúc tốt hơn sử dụng mô tả công cụ, danh mục hoặc load động để thu hẹp tập hợp trước khi LLM quyết định
GIẢI THÍCH:
Mỗi định nghĩa công cụ tiêu tốn token trong cửa sổ ngữ cảnh của LLM. Với 50 công cụ, mô hình phải xử lý tất cả 50 mô tả trước khi quyết định sử dụng công cụ nào - ngay cả đối với các nhiệm vụ đơn giản. Các giải pháp bao gồm: Phân loại công cụ (hệ thống LLM trước tiên chọn một danh mục, sau đó chọn từ một tập hợp nhỏ hơn), load động (chỉ load những công cụ liên quan đến nhiệm vụ hiện tại) hoặc sử dụng tìm kiếm công cụ để tìm các công cụ liên quan theo yêu cầu thay vì load trước tất cả chúng.
Câu 2:
Tại sao một vòng lặp agent (nhận thức → lập kế hoạch → hành động → quan sát → lặp lại) lại mạnh mẽ hơn một lệnh gọi LLM đơn lẻ?
- A. Các vòng lặp sử dụng ít tài nguyên tính toán hơn những lệnh gọi đơn lẻ vì mỗi lần lặp lại thu hẹp vấn đề và rút ngắn prompt tiếp theo. Trong khi một lệnh gọi đơn lẻ phải load tất cả các chi tiết có thể liên quan cùng một lúc, vòng lặp có thể lấy ngữ cảnh ngay khi cần và loại bỏ nó sau mỗi bước, do đó tổng số token tiêu tốn sẽ thấp hơn so với lệnh gọi đơn lẻ tương đương để thực hiện cùng một nhiệm vụ.
- B. Vòng lặp tạo ra phản hồi dài hơn, chính xác là những gì người dùng muốn khi họ yêu cầu các agent thực hiện công việc thực sự - không phải một dòng tweet, mà là một sản phẩm hoàn chỉnh của dự án. Các lệnh gọi đơn lẻ bị giới hạn trong một cửa sổ ngữ cảnh đầu ra của mô hình, trong khi vòng lặp tích lũy đầu ra qua những lần lặp và có thể cung cấp các phản hồi vượt quá giới hạn đầu ra tối đa của bất kỳ mô hình đơn lẻ nào. Độ dài đầu ra là lợi ích mà người dùng có thể nhận thấy.
- C. Vòng lặp cho phép tự điều chỉnh: Mỗi quan sát cung cấp thông tin cho hành động tiếp theo, do đó agent có thể thích ứng với các kết quả không mong muốn, phục hồi từ những lỗi và tinh chỉnh phương pháp của mình - điều mà một lệnh gọi đơn lẻ không bao giờ làm được.
GIẢI THÍCH:
Một lệnh gọi LLM đơn lẻ giống như một snapshot - nó tạo ra một phản hồi dựa trên đầu vào ban đầu. Một vòng lặp của agent giống như một cuộc trò chuyện với môi trường. Nếu một công cụ trả về dữ liệu không mong muốn, agent sẽ điều chỉnh. Nếu phương pháp đầu tiên thất bại, nó sẽ thử một phương pháp khác. Nếu kết quả đầu ra không đạt mục tiêu, nó sẽ tinh chỉnh. Quá trình tinh chỉnh lặp đi lặp lại này là lý do tại sao các agent có thể xử lý những nhiệm vụ phức tạp, nhiều bước mà một prompt duy nhất không bao giờ làm được.
Câu 3:
Bộ não LLM của một agent nhận được thông báo này sau khi gọi một công cụ: 'Error 404: Endpoint not found'. Một agent được thiết kế tốt nên làm gì?
- A. Thử lại cùng một cuộc gọi ngay lập tức. Lỗi 404 trên các API của bên thứ ba thường là tạm thời - sự cố định tuyến nhất thời, trục trặc DNS ngắn hạn hoặc sự cố tạm thời của endpoint - vì vậy phản hồi đầu tiên hiệu quả nhất là thử lại cùng một URL một hoặc hai lần với thời gian chờ ngắn trước khi thực hiện bất kỳ thao tác phức tạp nào hơn. Hầu hết thời gian, cuộc gọi thứ hai thành công và agent tiếp tục mà không cần lý giải lỗi phức tạp.
- B. Lý giải về lỗi (có thể URL sai hoặc API đã thay đổi), thử một phương pháp thay thế (endpoint khác, công cụ dự phòng hoặc hỏi người dùng) và ghi lại lỗi để dễ quan sát.
- C. Dừng lại và báo cáo lỗi cho người dùng. Agent không nên âm thầm thực hiện các hành động thay thế khi công cụ chính của nó thất bại - đó là cách những agent cuối cùng lại làm sai việc theo cách mà không ai nhận ra. Hiển thị lỗi 404 một cách rõ ràng cho người dùng, để họ tự quyết định bước tiếp theo, và bạn sẽ duy trì được sự giám sát của con người, điều giúp các hệ thống tự động hoạt động an toàn và có trách nhiệm.
GIẢI THÍCH:
Một agent được thiết kế tốt sẽ coi lỗi là thông tin, chứ không phải là ngõ cụt. Bộ não LLM nên suy luận: 'Endpoint trả về lỗi 404 - có thể nó đã thay đổi hoặc tôi có URL sai'. Sau đó, nó nên thử các phương án thay thế: Kiểm tra tài liệu, thử một endpoint đã biết là hoạt động tốt, hoặc chuyển sang một công cụ khác. Chỉ khi tất cả các phương án thay thế đều thất bại, nó mới báo cáo cho người dùng. Hành vi phục hồi lỗi này là điều phân biệt các agent mạnh mẽ với những script dễ bị lỗi.

Thứ Tư, 06/05/2026 10:30

5 ★ 1 👨

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Tạo AI Agents

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

4 thành phần trong cấu trúc AI agent

Thành phần 1: Bộ não LLM

Thành phần 2: Công cụ

Giao diện công cụ

Các loại công cụ phổ biến

Thành phần 3: Bộ nhớ

Bộ nhớ ngắn hạn (Ngữ cảnh hội thoại)

Bộ nhớ dài hạn (Lưu trữ bền vững)

Thành phần 4: Lập kế hoạch

Lập kế hoạch đơn giản (Tuần tự)

Lập kế hoạch động (Thích ứng)

Vòng lặp agent

Bài tập thực hành

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Xây dựng quy trình tự động hóa AI thực tế trong doanh nghiệp

Xác định các cơ hội tự động hóa AI cho doanh nghiệp

Test, giám sát và đảm bảo chất lượng AI Voice Agent

Thiết kế hội thoại cho AI Voice Agent

Các công cụ tự động hóa không cần lập trình cho doanh nghiệp

Xây dựng Voice Agent của riêng bạn

AI Agent và GPT tùy chỉnh trong tự động hóa doanh nghiệp

Tại sao agent lại quan trọng?

Cũ vẫn chất

6 cách giải phóng dung lượng iCloud mà không phải trả thêm tiền

Những câu nói về hôn nhân, tình cảm vợ chồng hay, đáng suy ngẫm

Manga là gì? Có những thể loại Manga nào?

60+ Câu đố về quả giúp trẻ rèn luyện tư duy

Hiberfil.sys là gì? Làm sao để xóa Hiberfil.sys?

Câu hỏi trắc nghiệm về virus máy tính

1 tấc, 1 li, 1 phân, 1 thước bằng bao nhiêu mét, cm?

Cách mở Task Manager trên Windows đơn giản nhất

20+ cách giải phóng RAM trên máy tính Windows 10, reset RAM Win 10 đơn giản nhất

999+ Stt thả thính, cap thả thính hay ❣ những câu thả thính dễ thương