4 thành phần trong cấu trúc AI agent

Khám phá 4 thành phần của mỗi AI agent: Bộ não LLM, công cụ, bộ nhớ và lập kế hoạch. Hiểu cách chúng tương tác thông qua vòng lặp của agent.

Trong bài học trước, bạn đã biết rằng các agent có 4 thành phần: Bộ não LLM, công cụ, bộ nhớ và lập kế hoạch. Bây giờ, hãy xem xét cách mỗi thành phần hoạt động và cách chúng kết hợp thành vòng lặp của agent.

Thành phần 1: Bộ não LLM

LLM là công cụ suy luận. Nó không chỉ tạo ra văn bản - nó đưa ra quyết định:

  • Công cụ nào cần sử dụng — "Tôi cần tìm kiếm trên web, chứ không phải cơ sở dữ liệu"
  • Đối số nào cần truyền — "Tìm kiếm 'Doanh thu quý 3 của Acme Corp năm 2025'"
  • Khi nào dừng lại — "Tôi đã có đủ thông tin để trả lời câu hỏi"
  • Cách khắc phục — "Công cụ đó đã thất bại, hãy để tôi thử một cách tiếp cận khác"

Bộ não xử lý mọi thứ thông qua một prompt hệ thống xác định vai trò, công cụ có sẵn và các ràng buộc hành vi của nó. Hãy coi nó như bản mô tả công việc của agent cộng với hướng dẫn sử dụng.

Cấu trúc prompt hệ thống của agent:
├── Vai trò: "Bạn là trợ lý nghiên cứu..."
├── Công cụ có sẵn: [web_search, file_read, calculator, ...]
├── Quy tắc hành vi: "Luôn trích dẫn nguồn. Không bao giờ bịa đặt dữ liệu."
├── Định dạng đầu ra: "Trả về kết quả dưới dạng JSON kèm điểm tin cậy."
└── Xử lý lỗi: "Nếu một công cụ bị lỗi, hãy thử các công cụ thay thế trước khi hỏi người dùng."

Kiểm tra nhanh: Prompt hệ thống của agent cho biết "Bạn có quyền truy cập vào: web_search, calculator, email_send". Người dùng hỏi: "Thủ đô của Pháp là gì?". Agent có nên gọi web_search không?

Câu trả lời: Không nhất thiết. LLM đã biết thủ đô của Pháp rồi. Một agent được thiết kế tốt chỉ sử dụng công cụ khi kiến ​​thức của chính LLM không đủ - ví dụ như dữ liệu thời gian thực, các phép tính vượt quá khả năng của nó, hoặc những hành động như gửi email. Sử dụng công cụ cho những thông tin đã biết sẽ lãng phí thời gian và tiền bạc.

Thành phần 2: Công cụ

Công cụ là cơ chế cho phép các agent hoạt động trong thế giới thực. Không có công cụ, agent chỉ là một chatbot.

Giao diện công cụ

Mỗi công cụ có 3 phần:

{
  "name": "web_search",
  "description": "Tìm kiếm thông tin hiện tại trên web. Sử dụng khi bạn cần dữ liệu mới hơn thời điểm kết thúc khóa đào tạo hoặc thông tin thời gian thực.",
  "parameters": {
    "query": {"type": "string", "description": "The search query"},
    "max_results": {"type": "integer", "default": 5}
  }
}

LLM đọc mô tả để quyết định khi nào sử dụng công cụ. Mô tả rõ ràng = lựa chọn công cụ tốt hơn. Mô tả mơ hồ = agent gọi nhầm công cụ.

Các loại công cụ phổ biến

LoạiVí dụThời điểm sử dụng
Thông tinTìm kiếm trên web, truy vấn cơ sở dữ liệu, đọc fileAgent cần dữ liệu mà nó không có
Tính toánMáy tính, thực thi code, phân tích dữ liệuCác nhiệm vụ đòi hỏi tính toán hoặc logic chính xác
Giao tiếpGửi email, tin nhắn Slack, gọi APIAgent cần tương tác với các hệ thống bên ngoài
Sáng tạoGhi file, tạo ảnh, viết codeAgent tạo ra các artifact

Thành phần 3: Bộ nhớ

Bộ nhớ cung cấp cho các agent ngữ cảnh tồn tại lâu dài hơn một tin nhắn duy nhất.

Bộ nhớ ngắn hạn (Ngữ cảnh hội thoại)

Mọi thứ trong cuộc hội thoại hiện tại: Tin nhắn của người dùng, phản hồi của agent, kết quả công cụ. Tất cả đều nằm trong cửa sổ ngữ cảnh của LLM và biến mất khi cuộc hội thoại kết thúc.

Hạn chế: Cửa sổ ngữ cảnh có giới hạn. Cửa sổ 128K token nghe có vẻ lớn, nhưng một agent xử lý tài liệu và kết quả công cụ có thể nhanh chóng làm đầy nó.

Bộ nhớ dài hạn (Lưu trữ bền vững)

Thông tin tồn tại xuyên suốt các cuộc hội thoại:

  • Sở thích của người dùng: "Người dùng này thích câu trả lời ngắn gọn với các gạch đầu dòng"
  • Các tương tác trước đó: "Tuần trước, chúng ta đã thảo luận về ngân sách quý 3 của họ - 50.000 USD cho tiếp thị"
  • Kiến thức đã học: "API của công ty sử dụng các endpoint v3, không phải v2"

Bộ nhớ dài hạn thường được lưu trữ trong cơ sở dữ liệu vector hoặc bộ nhớ có cấu trúc, được truy xuất khi có liên quan đến nhiệm vụ hiện tại.

Kiểm tra nhanh: Một agent hỗ trợ quản lý dự án nhớ rằng "hạn chót đã được dời sang ngày 15 tháng 3" từ một cuộc trò chuyện hai tuần trước. Nhưng người dùng vừa nói "hạn chót mới là ngày 1 tháng 4". agent nên sử dụng thông tin nào?

Đáp án: Ngày 1 tháng 4 - thông tin mới nhất sẽ được ưu tiên hơn thông tin cũ. Đây là một thách thức quan trọng trong quản lý bộ nhớ: Các agent cần truy xuất thông tin theo thứ tự ưu tiên để thông tin mới hơn được ưu tiên hơn so với thông tin lỗi thời. Nếu không có điều này, các agent sẽ xử lý dữ liệu cũ.

Thành phần 4: Lập kế hoạch

Lập kế hoạch là cách các agent xử lý những nhiệm vụ quá phức tạp đối với một hành động duy nhất.

Lập kế hoạch đơn giản (Tuần tự)

Nhiệm vụ: "Tóm tắt 3 tin tức hàng đầu về AI hôm nay"

Kế hoạch:
1. Tìm kiếm trên web "tin tức AI hôm nay"
2. Đọc 3 kết quả hàng đầu
3. Tóm tắt mỗi tin tức trong 2 câu
4. Kết hợp thành một bản tóm tắt duy nhất

Lập kế hoạch động (Thích ứng)

Nhiệm vụ: "Tìm và sửa lỗi trong hệ thống đăng nhập của chúng tôi"

Kế hoạch ban đầu:
1. Đọc mã đăng nhập
2. Xác định mẫu lỗi
→ Quan sát: Lỗi là do hết thời gian chờ của cơ sở dữ liệu
Kế hoạch sửa đổi:
3. Kiểm tra cài đặt kết nối cơ sở dữ liệu
4. Kiểm tra hiệu suất truy vấn
→ Quan sát: Truy vấn mất 8 giây trên các bảng người dùng lớn
Kế hoạch sửa đổi:
5. Thêm chỉ mục vào cột tìm kiếm người dùng
6. Kiểm tra với cùng một dữ liệu đầu vào
7. Xác minh rằng bản sửa lỗi đã giải quyết được lỗi ban đầu

Kế hoạch thay đổi dựa trên những gì agent phát hiện ra. Lập kế hoạch thích ứng này là điều làm cho các agent trở nên mạnh mẽ đối với những nhiệm vụ không giới hạn.

Vòng lặp agent

Cả 4 thành phần hoạt động cùng nhau trong một chu trình:

         ┌──────────────────────────────────┐
         │         1. NHẬN THỨC               │
         │ Đọc yêu cầu của người dùng + ngữ cảnh      │
         │ Khôi phục những ký ức liên quan       │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         2. KẾ HOẠCH                   │
         │  Chia nhỏ nhiệm vụ thành các bước            │
         │  Chọn hành động tiếp theo               │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         3. HÀNH ĐỘNG                    │
         │  Gọi công cụ hoặc tạo phản hồi   │
         └──────────────┬───────────────────┘
                        ▼
         ┌──────────────────────────────────┐
         │         4. QUAN SÁT                │
         │  Kết quả công cụ xử lý              │
         │  Cập nhật bộ nhớ                    │
         │  Kiểm tra xem nhiệm vụ đã hoàn thành chưa        │
         └──────────────┬───────────────────┘
                        │
                   Nhiệm vụ đã hoàn thành? ──Không──→ Trở lại KẾ HOẠCH
                        │
                       Có
                        ▼
                   Trả về kết quả

Vòng lặp này chạy cho đến khi agent xác định nhiệm vụ đã hoàn thành - hoặc đạt đến giới hạn số lần lặp tối đa (một rào cản an toàn).

Bài tập thực hành

  1. Chọn một nhiệm vụ bạn thực hiện hàng tuần (lập lịch, báo cáo, phân loại email)
  2. Phân tích nhiệm vụ đó theo 4 thành phần: Não bộ cần kiến ​​thức gì? Công cụ nào sẽ thực hiện nhiệm vụ? Bộ nhớ nào được lưu giữ qua các phiên? Trình tự lập kế hoạch là gì?
  3. Xác định điểm mà một cuộc gọi LLM đơn lẻ sẽ thất bại và tại sao vòng lặp lại cần thiết

Những điểm chính cần ghi nhớ

  • Não LLM suy luận và đưa ra quyết định - nó là công cụ ra quyết định của agent, chứ không chỉ là một trình tạo văn bản
  • Các công cụ biến đổi agent từ trạng thái hội thoại sang trạng thái có thể hành động - chúng là yếu tố phân biệt agent với chatbot
  • Bộ nhớ có hai lớp: Ngắn hạn (ngữ cảnh hội thoại) và dài hạn (lưu giữ qua các phiên)
  • Lập kế hoạch xử lý sự phức tạp thông qua việc phân tách - chia nhỏ các nhiệm vụ lớn thành những bước dễ quản lý
  • Vòng lặp của agent (nhận thức → lập kế hoạch → hành động → quan sát → lặp lại) liên kết cả 4 thành phần lại với nhau
  • Câu 1:

    Một agent có quyền truy cập vào 50 công cụ. Đối với một nhiệm vụ đơn giản như 'Ở Tokyo giờ là mấy giờ?', nó xem xét tất cả 50 công cụ trước khi chọn công cụ múi giờ. Vấn đề là gì?

    GIẢI THÍCH:

    Mỗi định nghĩa công cụ tiêu tốn token trong cửa sổ ngữ cảnh của LLM. Với 50 công cụ, mô hình phải xử lý tất cả 50 mô tả trước khi quyết định sử dụng công cụ nào - ngay cả đối với các nhiệm vụ đơn giản. Các giải pháp bao gồm: Phân loại công cụ (hệ thống LLM trước tiên chọn một danh mục, sau đó chọn từ một tập hợp nhỏ hơn), load động (chỉ load những công cụ liên quan đến nhiệm vụ hiện tại) hoặc sử dụng tìm kiếm công cụ để tìm các công cụ liên quan theo yêu cầu thay vì load trước tất cả chúng.

  • Câu 2:

    Tại sao một vòng lặp agent (nhận thức → lập kế hoạch → hành động → quan sát → lặp lại) lại mạnh mẽ hơn một lệnh gọi LLM đơn lẻ?

    GIẢI THÍCH:

    Một lệnh gọi LLM đơn lẻ giống như một snapshot - nó tạo ra một phản hồi dựa trên đầu vào ban đầu. Một vòng lặp của agent giống như một cuộc trò chuyện với môi trường. Nếu một công cụ trả về dữ liệu không mong muốn, agent sẽ điều chỉnh. Nếu phương pháp đầu tiên thất bại, nó sẽ thử một phương pháp khác. Nếu kết quả đầu ra không đạt mục tiêu, nó sẽ tinh chỉnh. Quá trình tinh chỉnh lặp đi lặp lại này là lý do tại sao các agent có thể xử lý những nhiệm vụ phức tạp, nhiều bước mà một prompt duy nhất không bao giờ làm được.

  • Câu 3:

    Bộ não LLM của một agent nhận được thông báo này sau khi gọi một công cụ: 'Error 404: Endpoint not found'. Một agent được thiết kế tốt nên làm gì?

    GIẢI THÍCH:

    Một agent được thiết kế tốt sẽ coi lỗi là thông tin, chứ không phải là ngõ cụt. Bộ não LLM nên suy luận: 'Endpoint trả về lỗi 404 - có thể nó đã thay đổi hoặc tôi có URL sai'. Sau đó, nó nên thử các phương án thay thế: Kiểm tra tài liệu, thử một endpoint đã biết là hoạt động tốt, hoặc chuyển sang một công cụ khác. Chỉ khi tất cả các phương án thay thế đều thất bại, nó mới báo cáo cho người dùng. Hành vi phục hồi lỗi này là điều phân biệt các agent mạnh mẽ với những script dễ bị lỗi.

Thứ Tư, 06/05/2026 10:30
51 👨
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo