Microsoft đề xuất cách huấn luyện AI mới: loại bỏ prompt dài mà vẫn giữ hiệu năng

Phạm Hải

Trong quá trình xây dựng ứng dụng AI, các doanh nghiệp thường phải sử dụng những system prompt rất dài để điều chỉnh hành vi của mô hình. Những prompt này chứa đủ thứ: từ kiến thức nội bộ, quy tắc vận hành cho đến các hướng dẫn chuyên biệt theo từng bài toán.

Tuy nhiên, khi triển khai ở quy mô lớn, cách làm này bắt đầu bộc lộ hạn chế. Việc phải “nhồi” quá nhiều thông tin vào mỗi lần gọi AI khiến thời gian phản hồi tăng lên đáng kể, đồng thời chi phí xử lý cho mỗi truy vấn cũng đội lên.

Để giải quyết vấn đề này, các nhà nghiên cứu tại Microsoft đã đề xuất một phương pháp huấn luyện mới mang tên On-Policy Context Distillation (OPCD) . Ý tưởng cốt lõi rất đơn giản: thay vì liên tục cung cấp lại cùng một lượng thông tin trong prompt, hãy huấn luyện mô hình để “ghi nhớ” luôn những kiến thức đó vào bên trong .

OPCD tận dụng chính các câu trả lời của mô hình trong quá trình huấn luyện để “chưng cất” (distill) kiến thức. Nhờ vậy, mô hình có thể học được cách phản hồi phù hợp với từng ứng dụng cụ thể mà không làm mất đi khả năng tổng quát vốn có.

Vì sao prompt dài trở thành gánh nặng?

Cơ chế “in-context learning” cho phép điều chỉnh hành vi của AI ngay trong lúc chạy mà không cần huấn luyện lại. Nhưng nhược điểm là toàn bộ kiến thức này chỉ mang tính tạm thời.

Điều đó đồng nghĩa với việc, mỗi lần sử dụng, hệ thống lại phải nạp lại toàn bộ dữ liệu như chính sách công ty, tài liệu kỹ thuật hay lịch sử khách hàng. Lặp lại quá trình này không chỉ làm chậm hệ thống mà còn dễ gây nhiễu thông tin.

Giải pháp distillation hoạt động theo mô hình “thầy – trò”. Mô hình “thầy” được cung cấp đầy đủ prompt dài và có thể tạo ra câu trả lời chính xác, chi tiết. Trong khi đó, mô hình “trò” chỉ nhận câu hỏi đơn giản, không có toàn bộ ngữ cảnh.

Nhiệm vụ của “trò” là quan sát cách “thầy” trả lời và học theo. Qua thời gian, nó sẽ “nén” toàn bộ logic và kiến thức từ prompt dài vào trong chính tham số của mình. Khi đưa vào sử dụng thực tế, mô hình “trò” có thể hoạt động nhanh hơn nhiều mà không cần lặp lại lượng dữ liệu khổng lồ ban đầu.

Vấn đề của phương pháp cũ

Dù hiệu quả, cách distillation truyền thống vẫn tồn tại hạn chế.

Thứ nhất là hiện tượng “lệch huấn luyện” (exposure bias). Trong quá trình học, mô hình chỉ thấy câu trả lời đúng từ “thầy”, nhưng khi vận hành thực tế, nó phải tự đưa ra quyết định. Vì không quen xử lý sai sót, mô hình dễ “lạc đường”.

Thứ hai là cách đánh giá dựa trên độ giống với “thầy” khiến mô hình cố gắng bao quát quá nhiều khả năng. Điều này làm cho suy luận trở nên dàn trải, thiếu chính xác.

Hệ quả là trong thực tế, AI có thể sinh ra “ảo giác” — đưa ra thông tin sai nhưng lại rất tự tin, hoặc gặp khó khăn khi xử lý các tình huống mới.

OPCD được thiết kế để khắc phục những điểm yếu trên.

Thay vì học từ một tập dữ liệu cố định, mô hình “trò” sẽ tự tạo ra câu trả lời của mình ngay trong quá trình huấn luyện. Lúc này, “thầy” đóng vai trò như một người hướng dẫn trực tiếp, đánh giá từng bước mà “trò” thực hiện.

Ở mỗi bước sinh ra token, hệ thống sẽ so sánh cách “trò” suy luận với cách mà “thầy” — vốn có đầy đủ ngữ cảnh — sẽ làm. Nhờ đó, mô hình không chỉ học kết quả cuối cùng mà còn học cả quá trình suy nghĩ.

Lợi ích thực tế cho doanh nghiệp

Cách tiếp cận mới này mang lại lợi ích rất rõ ràng khi triển khai thực tế:

Mô hình không còn phụ thuộc vào prompt dài nên tốc độ phản hồi nhanh hơn và chi phí xử lý giảm đáng kể. Đồng thời, khả năng suy luận cũng ổn định hơn do đã được “luyện” trong điều kiện gần với thực tế sử dụng.

Quan trọng hơn, doanh nghiệp có thể xây dựng các mô hình AI tùy biến theo nhu cầu riêng mà không phải hy sinh hiệu năng hay độ chính xác.

OPCD cho thấy một hướng đi mới trong việc phát triển AI: không phải cứ thêm nhiều dữ liệu vào prompt là tốt hơn, mà là dạy mô hình hiểu và ghi nhớ thông tin ngay từ bên trong .

Nếu được áp dụng rộng rãi, phương pháp này có thể giúp các hệ thống AI doanh nghiệp trở nên nhanh hơn, rẻ hơn và đáng tin cậy hơn trong tương lai.

Thứ Tư, 25/03/2026 19:20

3 ★ 1 👨 16

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!