Cách đây một thời gian, có người đã yêu cầu Claude, ChatGPT và Gemini xây dựng một trình mô phỏng hệ mặt trời. Đó là thời điểm Claude đang được nhiều người nhắc đến, và nhiều người nhận ra rằng có lẽ họ không nên chỉ giới hạn mình ở ChatGPT.
Bài kiểm tra đó đã cho ra một trong những kết quả rõ ràng nhất từng có. Claude đã làm rất tốt và thắng một cách thuyết phục. Gemini tạo ra code hoạt động nhưng không thực sự ấn tượng, và điều thú vị là ChatGPT đã thất bại.
Hôm nay, hãy kiểm tra một tham số khác. Lần này, thay vì viết code, hãy giao cho các LLM nhiệm vụ gỡ lỗi code. Cụ thể, là yêu cầu chúng sửa lỗi code của ChatGPT.
Code bị lỗi của ChatGPT
Một lỗi nhỏ nhưng nghiêm trọng

Bài kiểm tra trước đó có một ràng buộc đơn giản: Không thử lại. Bất cứ kết quả nào nhận được trong lần phản hồi đầu tiên đều là kết quả sẽ được lấy để đánh giá. Thật không may cho ChatGPT, code mà nó tạo ra có một lỗi nhỏ, tinh vi khiến toàn bộ chương trình không thể sử dụng được.
ChatGPT sử dụng ki-lô-mét cho một số khoảng cách, và sau đó sử dụng đơn vị thiên văn (AU) cho những khoảng cách khác. Sau đó, nó trộn lẫn chúng và cuối cùng hiển thị không gian và đường kính bằng AU, nhưng khoảng cách giữa các hành tinh lại bằng ki-lô-mét. Kết quả là các hành tinh chỉ cách nhau vài ki-lô-mét, điều này, trên quy mô của hệ mặt trời, có nghĩa là chúng thực chất nằm bên trong nhau.
Code của ChatGPT khá gọn gàng và đã triển khai mọi thứ, nhưng tiếc thay, lỗi nhỏ này đã khiến nó trở nên không thể sử dụng được, khiến những khía cạnh khác của code không thể đánh giá được.

Viết code và gỡ lỗi code là hai kỹ năng khác nhau. Điều này cũng đúng với con người. Một nhà phát triển có thể giỏi viết code, trong khi người khác lại giỏi gỡ lỗi. Khái niệm tương tự cũng áp dụng ở những lĩnh vực khác. Một người viết giỏi không nhất thiết là một người biên tập giỏi, và ngược lại.
Hãy cùng đi vào bài kiểm tra. Câu hỏi được đưa ra bên dưới. Bài toán khá đơn giản và yêu cầu họ chỉ rõ lỗi gì đã được sửa để chúng ta dễ hiểu.
Bạn được giao một đoạn code nguồn bị lỗi của một trình mô phỏng hệ mặt trời. Code nguồn chứa một lỗi khiến trình mô phỏng không thể sử dụng được. Nhiệm vụ của bạn: Xác định chính xác vấn đề gây ra lỗi. Sửa code nguồn. Trả lại phiên bản code nguồn đã được sửa lỗi hoàn toàn. Giải thích ngắn gọn lỗi ở đâu và cách bạn đã sửa nó. Giữ cho lời giải thích ngắn gọn và chỉ tập trung vào nguyên nhân gốc rễ và cách giải quyết.Lưu ý: Bài kiểm tra chính ban đầu là để xem liệu Claude có thể sửa code nguồn của ChatGPT hay không, nhưng để bổ sung thêm ngữ cảnh, hãy yêu cầu tất cả những người thường xuyên tham gia làm điều tương tự.
Gemini đã sửa code chính xác

Gần đây, Gemini là phần mềm tệ nhất trong số các phần mềm tương tự. Theo kinh nghiệm, ngay cả khi bạn gửi cho nó đoạn code hoàn hảo và yêu cầu nó sửa lỗi. Nó sẽ tự tạo ra một lỗi, "sửa" nó, và phá hủy code. Vì vậy, không biết liệu nó có thể xác định chính xác lỗi thực sự trong code bị hỏng hay không. Để rõ hơn, ví dụ đang sử dụng Gemini 3.1 Thinking.
Thật ngạc nhiên, Gemini đã làm được. Nó đã xác định chính xác lỗi: Công cụ chiếu mong đợi vị trí tính bằng ki-lô-mét, nhưng orbitalPosition và drawOrbit tính toán bằng đơn vị thiên văn. Nó thậm chí còn nêu rõ kết quả của lỗi: Về cơ bản, nó đã xếp chồng các hành tinh lên trên mặt trời, khiến hệ thống trông trống rỗng.

Giải pháp mà nó sử dụng cũng chính xác, và code đã sửa hoạt động. Cuối cùng, chúng ta đã có thể thấy trình mô phỏng hệ mặt trời của ChatGPT!
ChatGPT cũng có thể tự chuộc lỗi

Xét cho cùng, đây là code lỗi của chính ChatGPT. Chúng ta không thể yêu cầu cùng một chatbot đã viết ra code lỗi đó tìm ra lỗi. Nhưng, ChatGPT đã có sự cải thiện gần đây. Theo kinh nghiệm, nó hoạt động tốt hơn Gemini. ChatGPT từng gây khó chịu đến mức nhiều người chuyển sang dùng Claude, nhưng bây giờ, khi thỉnh thoảng sử dụng nó, họ thường nhận được kết quả tốt.
Điều đó là tự nhiên. Các mô hình này liên tục được tinh chỉnh và cập nhật, ngay cả khi tên phiên bản không thay đổi. Theo kinh nghiệm, ChatGPT cũng nhạy cảm hơn nhiều với các hướng dẫn tùy chỉnh so với những chatbot khác, vì vậy các hướng dẫn tùy chỉnh của bạn trong ChatGPT có thể ảnh hưởng đáng kể đến trải nghiệm.
Thật đáng ngạc nhiên, ChatGPT đã làm rất tốt. Nó đã tìm ra nguyên nhân gốc rễ, đưa ra lời giải thích ngắn gọn nhưng rõ ràng đúng như yêu cầu, và đã sửa lỗi code. Và code đã sửa hoạt động tốt (trong đó ChatGPT 5.4 Thinking là mô hình được sử dụng).

ChatGPT đã suy nghĩ lâu nhất trong nhiệm vụ ban đầu. Có lẽ tất cả quá trình suy nghĩ trước khi tạo code đã làm đầy cửa sổ ngữ cảnh và góp phần gây ra lỗi. Hoặc có thể ChatGPT được tinh chỉnh theo cách giúp nó xử lý tốt hơn các nhiệm vụ nhỏ và các chỉnh sửa nhỏ hơn là tạo ra một dự án từ đầu.
Sự tương phản rất thú vị. Tuy nhiên, điều thú vị nhất là những gì được trình bày trong đoạn tiếp theo.
Claude tạo ra bất ngờ lớn nhất
Kết quả của Claude trong bài kiểm tra cuối cùng đơn giản là ở một đẳng cấp khác. Nó kỹ lưỡng, chi tiết, giàu thông tin và khả thi hơn về mặt khoa học, bỏ xa ChatGPT và Gemini.
Nhưng đây là điều bất ngờ: Claude đã không tìm ra lỗi chính trong code của ChatGPT.
Thay vào đó, nó tìm thấy một lỗi khác liên quan đến cơ chế lia máy ảnh. Công bằng mà nói, nó không ảo tưởng ra lỗi đó. Lỗi đó có thật, nhưng nó chỉ xuất hiện khi bạn kéo chuột bằng phím Shift để lia máy ảnh, và ở hầu hết các góc máy ảnh, nó đủ tinh tế để dễ bị bỏ sót. Nhưng xét đến việc có một lỗi lớn hơn nhiều, khiến trình mô phỏng gần như vô dụng, Claude lại hoàn toàn bỏ sót nó.
Kỳ lạ phải không? Chatbot viết ra code tốt nhất giờ lại tệ nhất trong việc gỡ lỗi code của người khác. Lần này, Claude thất bại ở nơi ChatGPT và Gemini thành công. Để rõ hơn, lựa chọn vẫn là Claude Sonnet 4.6, cùng một mô hình đã sử dụng trước đây.
Sau khi được cho thêm một cơ hội, Claude hứa sẽ xem xét code kỹ hơn và lại tiếp tục. Sau đó, nó đưa ra một kết quả khác, vẫn sai. Nhưng điều thú vị là, nó không dừng lại ở đó. Nó nói, "sẽ xem xét kỹ hơn" và tiếp tục.
Nhưng một lần nữa, nó lại tìm ra lỗi sai. Đây vẫn chưa phải là lỗi nghiêm trọng liên quan đến tỷ lệ. Rất may Claude vẫn không dừng lại. Nó tiếp tục suy nghĩ và cuối cùng cũng nhận ra lỗi chuyển đổi đơn vị AU sang ki-lô-mét. Hậu quả mà nó suy luận ra là sai, nhưng giải pháp vẫn đúng. Bạn có thể xem một vài đoạn hội thoại trong thư viện ảnh ở trên.
Cuối cùng, Claude đã báo cáo lỗi cùng với cách khắc phục chính xác.
Claude giống một con bot hơn các chatbot khác. Đó là một phần lý do tại sao mọi người chuyển sang dùng Claude và tại sao nó được sử dụng nhiều nhất gần đây. Chatbot hãy cứ là một chatbot đúng nghĩa, không cần nó hành động như con người.
Trong khi các chatbot phổ biến hơn như Gemini và ChatGPT dường như hướng đến người dùng thông thường, cố gắng hơn để nghe và mang lại cảm giác giống con người, Claude thì không. Sự khác biệt đó cũng thể hiện trong bài kiểm tra này. Claude đã tìm thấy các lỗi thực sự, nhưng không phải lỗi quyết định đầu tiên. Theo lý luận của Claude, mọi thứ dường như diễn ra như thế này: Đây là một lỗi; code không nên có lỗi; điều này rất quan trọng. Đây chắc chắn là lỗi quan trọng; sau đó kết thúc nhiệm vụ.
Claude đã tạo ra trình mô phỏng gốc mạnh nhất, nhưng lại yếu nhất trong việc xác định lỗi quan trọng nhất khi có các ràng buộc. Đó là bài học chính ở đây!
Một mô hình LLM thoạt nhìn có vẻ giống với mô hình khác, nhưng chúng khác nhau ở những điểm quan trọng. Hãy bắt đầu một cuộc hội thoại riêng và yêu cầu nó tìm lỗi trong chính code của nó. Gửi cùng một đoạn code đó cho một chatbot khác và yêu cầu nó làm điều tương tự.
Ngày càng rõ ràng rằng không có một mô hình nào có thể thống trị tất cả. Có lẽ chúng ta sẽ cần kết hợp nhiều mô hình, phòng trường hợp cần thiết.
Hướng dẫn AI
Học IT










Hàm Excel