ChatGPT đưa ra 10 câu trả lời khác nhau cho cùng một câu hỏi: Độ chính xác chưa thực sự đáng tin cậy?

Phạm Hải

ChatGPT có thể đưa ra câu trả lời rất trôi chảy và thuyết phục, nhưng một nghiên cứu mới cho thấy hệ thống này vẫn gặp khó khăn trong việc xác định đâu là sự thật.

Giáo sư Mesut Cicek từ Washington State University cùng các cộng sự đã tiến hành kiểm tra ChatGPT bằng cách đưa vào các giả thuyết rút ra từ các nghiên cứu khoa học. Nhiệm vụ của AI là xác định liệu những giả thuyết đó có được bằng chứng nghiên cứu ủng hộ hay không — nói cách khác là đúng hay sai.

Tổng cộng, nhóm nghiên cứu đã thử nghiệm hơn 700 giả thuyết, và mỗi giả thuyết được đưa vào hệ thống tới 10 lần nhằm đánh giá mức độ nhất quán trong câu trả lời.

Độ chính xác chưa thực sự đáng tin cậy

Trong thử nghiệm đầu tiên vào năm 2024, ChatGPT trả lời đúng khoảng 76,5% số câu hỏi. Khi lặp lại nghiên cứu vào năm 2025, con số này tăng nhẹ lên 80%.

Tuy nhiên, khi loại bỏ yếu tố đoán mò ngẫu nhiên, kết quả lại kém khả quan hơn nhiều. Hiệu suất thực tế của AI chỉ cao hơn khoảng 60% so với mức đoán ngẫu nhiên, tương đương mức đánh giá khá thấp theo tiêu chuẩn học thuật.

Đặc biệt, hệ thống gặp khó khăn lớn khi xác định các phát biểu sai. Tỷ lệ nhận diện đúng các thông tin không chính xác chỉ đạt khoảng 16,4%.

Một vấn đề đáng chú ý khác là sự thiếu nhất quán. Theo giáo sư Cicek, khi cùng một câu hỏi được đưa ra nhiều lần, ChatGPT không phải lúc nào cũng đưa ra cùng một đáp án. Trong khoảng 73% trường hợp, câu trả lời giữ được sự nhất quán, nhưng phần còn lại lại thay đổi.

Có những tình huống cùng một câu hỏi nhận được chuỗi phản hồi kiểu “đúng – sai – đúng – sai” xen kẽ. Thậm chí, có trường hợp số lần trả lời “đúng” và “sai” ngang nhau khi lặp lại nhiều lần.

AI nói hay nhưng chưa thực sự “hiểu”

Nghiên cứu được công bố trên Rutgers Business Review nhấn mạnh một điểm quan trọng: khả năng tạo ngôn ngữ mượt mà không đồng nghĩa với việc AI thực sự hiểu vấn đề.

Theo Cicek, các hệ thống AI hiện tại chưa có khả năng tư duy giống con người. Chúng chủ yếu dựa vào việc ghi nhớ và xử lý dữ liệu, từ đó tạo ra câu trả lời có vẻ hợp lý, nhưng không phải lúc nào cũng chính xác.

Điều này cho thấy trí tuệ nhân tạo tổng quát (AGI) — với khả năng suy luận thực sự — có thể vẫn còn xa hơn so với kỳ vọng của nhiều người.

Nghiên cứu có sự tham gia của nhiều nhà khoa học đầu ngành. Nhóm đã phân tích 719 giả thuyết từ các bài nghiên cứu khoa học trong lĩnh vực kinh doanh được công bố từ năm 2021. Việc xác định một giả thuyết có được chứng minh hay không vốn đã phức tạp, vì nó phụ thuộc vào nhiều yếu tố khác nhau.

Trong thử nghiệm, nhóm sử dụng phiên bản ChatGPT-3.5 vào năm 2024 và ChatGPT-5 mini vào năm 2025. Kết quả giữa hai phiên bản không có khác biệt đáng kể.

Kết quả nghiên cứu cho thấy một hạn chế quan trọng của các mô hình ngôn ngữ lớn: dù có thể tạo ra câu trả lời trau chuốt và dễ thuyết phục, nhưng chúng vẫn gặp khó khăn trong việc suy luận sâu. Điều này dẫn đến tình trạng AI có thể đưa ra những kết luận nghe có vẻ hợp lý, nhưng thực tế lại sai.

Vì sao cần thận trọng khi dùng AI

Từ những phát hiện trên, các nhà nghiên cứu khuyến nghị người dùng — đặc biệt là các nhà quản lý và lãnh đạo doanh nghiệp — cần kiểm chứng lại thông tin do AI cung cấp, thay vì tin tưởng tuyệt đối.

Họ cũng nhấn mạnh tầm quan trọng của việc đào tạo người dùng hiểu rõ điểm mạnh và giới hạn của AI.

Dù nghiên cứu tập trung vào ChatGPT, các thử nghiệm tương tự với những hệ thống AI khác cũng cho kết quả tương tự. Trước đó, một khảo sát năm 2024 cũng cho thấy người tiêu dùng có xu hướng ít quan tâm đến sản phẩm khi chúng được quảng bá quá nhiều bằng yếu tố AI.

Chủ Nhật, 22/03/2026 14:10

3 ★ 1 👨 50

#AI #Trí tuệ nhân tạo #cha

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!