Các chỉ số benchmark AI không có ý nghĩa gì: Hãy chú ý đến những điều sau!

Trần Mến

Mỗi khi một mô hình AI mới ra mắt, hàng loạt các trang web so sánh hiệu năng AI lại nổi lên và dội bom chúng ta bằng những biểu đồ đầy màu sắc, những cải tiến nhỏ và không đáng kể với các con số không được đặt trong bối cảnh cụ thể, thực sự chẳng có ý nghĩa gì với hầu hết mọi người.

Đa phần, nếu bạn không phải là nhà nghiên cứu AI, thì hầu hết các số liệu và biểu đồ này đều vô nghĩa. Những con số đó thường không tiết lộ thông tin liên quan đến cách hầu hết mọi người sử dụng AI.

Các tiêu chuẩn so sánh hiệu năng không vô dụng. Vấn đề là chúng đang phục vụ sai đối tượng, hoạt động giống như tiếp thị hơn là giải thích rõ ràng những gì mới, những gì hiệu quả và cách nó sẽ giúp bạn tiết kiệm thời gian.

Tại sao các công ty AI lại yêu thích biểu đồ so sánh hiệu năng?

Lý do đằng sau việc so sánh hiệu năng AI, giống như tất cả các bài kiểm tra so sánh hiệu năng khác, là hợp lý. Chúng giúp đơn giản hóa các hệ thống phức tạp thành những con số dễ hiểu. Thay vì mô tả những cải tiến nhỏ trong khả năng suy luận hoặc hiểu ngôn ngữ, các công ty có thể chỉ vào biểu đồ và nói rằng mô hình của họ đạt 92% trong một bài kiểm tra trong khi đối thủ cạnh tranh đạt 88%.

Việc so sánh mang tính khách quan, và các tiêu chuẩn đánh giá cung cấp một phương pháp chuẩn hóa để quản lý hiệu suất và tập dữ liệu trong môi trường được kiểm soát. Nếu mọi phòng thí nghiệm đều đánh giá mô hình của mình bằng cùng một bài kiểm tra, việc theo dõi tiến độ và đo lường sự cải thiện giữa các phương pháp khác nhau sẽ dễ dàng hơn.

Vấn đề là ngay khi các tiêu chuẩn đánh giá này rời khỏi phòng thí nghiệm và được sử dụng ngoài thực tế, bối cảnh đằng sau chúng thường trở nên vô nghĩa. Một mô hình đánh bại mô hình khác trong một tiêu chuẩn đánh giá khả năng suy luận không nhất thiết có nghĩa là nó sẽ làm tốt hơn trong các tác vụ hàng ngày như tóm tắt tài liệu, chỉnh sửa văn bản hoặc trả lời những câu hỏi phức tạp.

Đối với hầu hết mọi người, những khả năng này quan trọng hơn nhiều so với hiệu suất trên các tập dữ liệu được cấu trúc cẩn thận trong môi trường phòng thí nghiệm được kiểm soát chặt chẽ.

Các tiêu chuẩn đánh giá AI thực sự kiểm tra điều gì?

Điều làm cho việc đánh giá hiệu năng AI trở nên phức tạp hơn nữa là số lượng lớn các bài kiểm tra từ cả những nhà phát triển AI và các đơn vị kiểm thử bên ngoài. Nhưng cách dễ nhất để tìm hiểu tính hữu ích trong thế giới thực là kiểm tra xem chúng đang đo lường điều gì.

Vì việc kiểm tra được tiêu chuẩn hóa, nên có một vài bài kiểm tra đánh giá hiệu năng AI được sử dụng rộng rãi.

MMLU: Bài kiểm tra đánh giá khả năng hiểu ngôn ngữ đa nhiệm quy mô lớn (Massive Multitask Language Understanding) đánh giá các mô hình bằng cách sử dụng hàng nghìn câu hỏi trắc nghiệm trên hàng chục môn học, bao gồm vật lý, luật, kinh tế, sinh học và y học.
GSM8K: Bài kiểm tra toán học cấp tiểu học (Grade School Math 8K) đo lường khả năng suy luận toán học, với tập dữ liệu chứa hàng nghìn bài toán đố toán học cấp tiểu học yêu cầu nhiều bước để giải.
HumanEval: Bài kiểm tra HumanEval kiểm tra các mô hình bằng cách sử dụng những prompt lập trình và đánh giá xem AI có tạo ra một giải pháp chính xác vượt qua một loạt các bài kiểm tra hay không. Điều này làm cho nó cực kỳ có giá trị trong việc đánh giá các mô hình nhằm hỗ trợ lập trình viên.

Trên lý thuyết, tất cả đều hữu ích. Nhưng trên thực tế, việc ứng dụng vào thế giới thực không hề dễ dàng. Ví dụ, mặc dù MMLU nghe có vẻ ấn tượng, nhưng về cơ bản nó chỉ trả lời một danh sách khổng lồ các câu hỏi theo kiểu bài kiểm tra với những câu trả lời được xác định trước. Nhưng hầu hết mọi người không sử dụng AI để làm bài kiểm tra - họ đang dùng nó để hiểu hướng dẫn và giải quyết vấn đề. Hơn nữa, MMLU có tỷ lệ lỗi cao và thiên lệch lớn về phía phương Tây.

Tương tự, GSM8K là một chỉ số hữu ích về khả năng suy luận logic, nhưng hầu hết mọi người không sử dụng chatbot AI để giải các bài toán số học cơ bản. Họ yêu cầu chúng giải thích các khái niệm, tóm tắt thông tin, soạn thảo nội dung hoặc hỗ trợ nghiên cứu, nhưng điểm số GSM8K vẫn thường xuyên xuất hiện trong các tài liệu tiếp thị như bằng chứng về trí thông minh tổng quát.

Hiện tượng Benchmark contamination là một vấn đề lớn

Sự khác biệt giữa các benchmark khi kiểm tra

Còn một vấn đề lớn khác với việc đánh giá hiệu năng AI: Nhiễm bẩn tập dữ liệu.

Hầu hết các mô hình AI được huấn luyện bằng cách sử dụng những bộ sưu tập khổng lồ văn bản và thông tin khác được thu thập từ Internet. Điều đó có nghĩa là các tập dữ liệu bao gồm những bài báo nghiên cứu, sách giáo khoa, kho code trực tuyến và nhiều tập dữ liệu chuẩn có sẵn công khai.

Khi các câu hỏi benchmark xuất hiện trong dữ liệu huấn luyện, những mô hình có thể ghi nhớ câu trả lời một cách hiệu quả.

Các nhà nghiên cứu gọi vấn đề này là hiện tượng nhiễm bẩn, và nó có thể làm sai lệch đáng kể kết quả đánh giá hiệu năng. Một mô hình có thể hoạt động tốt trong một bài kiểm tra không phải vì nó đã học cách suy luận giải quyết vấn đề, mà vì nó đã gặp câu hỏi đó trước đây trong quá trình huấn luyện.

Một bài nghiên cứu có tiêu đề "Kiểm tra cẩn thận hiệu năng của mô hình ngôn ngữ lớn trên bài toán số học cấp tiểu học" (ArXiv) đã khám phá vấn đề này chi tiết hơn, bằng cách thử nghiệm những mô hình AI trên GSM1K, một bài kiểm tra hiệu năng AI tương tự như GSM8K mà các nhà nghiên cứu có thể đảm bảo rằng chưa từng được sử dụng trước đây.

Nghiên cứu cho thấy một số mô hình, chẳng hạn như Phi, Mistral và Llama, "đang thể hiện bằng chứng về hiện tượng quá khớp có hệ thống trên hầu hết mọi kích thước mô hình", với độ chính xác giảm "lên đến 13%" khi được thử nghiệm trên một bộ dữ liệu chuẩn tương tự nhưng chưa được kiểm tra.

Phân tích sâu hơn cho thấy mối quan hệ tích cực (hệ số tương quan Spearman r2=0,32) giữa xác suất tạo ra ví dụ từ GSM8k của một mô hình và khoảng cách hiệu suất giữa GSM8k và GSM1k, cho thấy nhiều mô hình có thể đã ghi nhớ một phần GSM8k.

Vì vậy, mặc dù các bài kiểm tra hiệu năng có thể cho thấy hiệu suất một cách nhanh chóng, nhưng vẫn có khả năng hiệu suất của mô hình AI được tăng cường nhờ kiến thức hiện có của nó về những câu hỏi và câu trả lời. Đó là lý do tại sao nghiên cứu này rất quan trọng đối với độ chính xác, và tại sao các bài kiểm tra hiệu năng AI không phải lúc nào cũng phản ánh đúng thực tế.

Các benchmark AI mà bạn thực sự nên quan tâm

Các bài kiểm tra hiệu năng không phải là vô nghĩa. Việc có cách để làm cho các tập dữ liệu phức tạp dễ hiểu không phải là điều xấu - đó không phải là điều chúng ta đang tranh luận ở đây. Chỉ là các tiêu chuẩn và phân tích khác có ý nghĩa hơn đối với người dùng thông thường.

Một số sử dụng kinh nghiệm tập thể của người dùng chatbot AI, trong khi những số khác tập trung hơn vào các vấn đề hàng ngày mà chúng ta gặp phải, chẳng hạn như ảo giác.

1. Kiểm tra sở thích của con người

Một trong những lựa chọn thay thế được sử dụng rộng rãi nhất cho các tiêu chuẩn AI thông thường là những trang web kiểm tra sở thích của con người, so sánh các đánh giá mù của con người.

Các trang web như Leaderboard Overview của Hugging Face, Chatbot Arena của OpenLM và Battle Mode của ArenaAI mang lại cho bạn cơ hội tốt hơn nhiều để tìm ra giá trị thực sự của AI đối với con người.

Trong hầu hết các trường hợp, bạn đưa ra một câu hỏi, hai mô hình AI tạo ra câu trả lời, và sau đó mọi người bỏ phiếu cho các câu trả lời. Vì các mô hình được ẩn danh, người bỏ phiếu không biết hệ thống nào tạo ra câu trả lời nào. Điều đó làm giảm sự thiên vị thương hiệu và tập trung đánh giá vào chất lượng đầu ra thực tế.

Theo thời gian, hệ thống thu thập hàng trăm nghìn phiếu bầu và tạo ra bảng xếp hạng dựa trên sở thích thực tế của người dùng.

Cách tiếp cận này nắm bắt được những gì mà các tiêu chuẩn truyền thống thường bỏ sót, chẳng hạn như sự rõ ràng, tính hữu ích của câu trả lời, khả năng tuân thủ hướng dẫn, giọng điệu hội thoại, v.v...

Nói cách khác, nó đánh giá trải nghiệm khi sử dụng mô hình, chứ không chỉ khả năng vượt qua các bài kiểm tra học thuật.

2. Tiêu chuẩn tuân thủ hướng dẫn (IFEval)

Một phương pháp đánh giá so sánh AI thay thế khác là IFEval, một công cụ đánh giá AI được phát triển bởi các chuyên gia tại Google, nhưng nó cũng không được Google chính thức hỗ trợ.

Thay vì kiểm tra kiến thức hoặc khả năng suy luận, IFEval đo lường một điều đơn giản hơn nhiều: Liệu mô hình có thực sự tuân theo hướng dẫn hay không?

Ví dụ, các prompt có thể bao gồm những phép đo như trả lời trực tiếp trong 5 điểm, viết câu trả lời ở định dạng JSON, tránh các từ hoặc ký tự cụ thể, giới hạn độ dài hoặc ký tự của câu trả lời, v.v...

Các bài kiểm tra thuộc loại này rất quan trọng vì chúng là những loại hướng dẫn mà mọi người đưa ra cho chatbot AI mỗi ngày. Tiêu chuẩn sau đó sẽ kiểm tra xem mô hình có đạt được các mức độ đó hay không.

Điều này nghe có vẻ cơ bản, nhưng độ tin cậy trong việc tuân theo hướng dẫn là một trong những yếu tố quan trọng nhất trong quy trình làm việc AI thực tế.

3. Các tiêu chuẩn đánh giá nhiệm vụ thực tế (HELM)

Một nỗ lực khác để đánh giá các mô hình AI một cách thực tế hơn là framework Holistic Evaluation of Language Models (HELM) được phát triển bởi các nhà nghiên cứu tại Trung tâm Nghiên cứu về Mô hình Nền tảng Stanford.

HELM thực sự hữu ích vì thay vì tập trung vào điểm số duy nhất trong môi trường phòng thí nghiệm được kiểm soát, nó đánh giá các mô hình trên nhiều kịch bản thực tế, bao gồm:

Nhiệm vụ tóm tắt
Trả lời câu hỏi
Trích xuất thông tin
Độc hại và thiên vị
Khả năng thích ứng với các thay đổi prompt

HELM cũng đo lường các thuộc tính bổ sung ngoài độ chính xác, chẳng hạn như:

Hiệu chuẩn (độ tin cậy so với độ chính xác)
Tính công bằng
Tính hiệu quả
Khả năng thích ứng

Ý tưởng là việc đánh giá một mô hình ngôn ngữ cần nhiều khía cạnh, chứ không chỉ một điểm số duy nhất trên bảng xếp hạng.

4. TruthfulQA

Cuối cùng, một trong những vấn đề lớn nhất với Generative AI là ảo giác, trong đó mô hình về cơ bản nói dối và đưa ra các câu trả lời sai, gây hiểu nhầm hoặc hoàn toàn bịa đặt.

Như bạn mong đợi, việc tìm hiểu xem công cụ bạn đang sử dụng có đang đưa ra những thông tin vô căn cứ hay không là rất quan trọng, đó là lý do tại sao tiêu chuẩn TruthfulQA kiểm tra các câu hỏi thường gây ra những hiểu lầm phổ biến hoặc câu trả lời sai. Bài kiểm tra đánh giá xem mô hình có lặp lại những quan niệm sai lầm đó hay tránh chúng một cách chính xác, sử dụng 817 câu hỏi thuộc 38 danh mục bao gồm các huyền thoại, thuyết âm mưu, thông tin sai lệch, câu hỏi mẹo, v.v...

TruthfulQA thực chất là một trong những công cụ đánh giá hiệu suất ảo giác AI phổ biến nhất, với hơn 5.000 trích dẫn trên Google Scholar, và chỉ số chính mà nó đo lường là tính trung thực: liệu mô hình có đưa ra câu trả lời chính xác về mặt thực tế hay nó tự tin tạo ra điều gì đó sai?

Thứ Hai, 16/03/2026 09:44

3 ★ 1 👨 57

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!