MolmoBot: Robot AI học từ dữ liệu mô phỏng thay vì thế giới thật

Phạm Hải

Dữ liệu mô phỏng ảo đang trở thành động lực quan trọng thúc đẩy sự phát triển của AI vật lý trong môi trường doanh nghiệp, với những dự án tiêu biểu như MolmoBot của Ai2 .

Trước đây, việc huấn luyện phần cứng để tương tác với thế giới thực thường phụ thuộc vào các bản ghi thao tác được con người thực hiện trực tiếp, một quá trình vừa tốn kém vừa mất nhiều thời gian. Các công ty phát triển hệ thống robot đa năng thường coi việc huấn luyện bằng lượng lớn dữ liệu thực tế là nền tảng để xây dựng những tác nhân AI này.

Chẳng hạn, dự án DROID đã thu thập khoảng 76.000 quỹ đạo điều khiển từ xa tại 13 tổ chức khác nhau, tương đương khoảng 350 giờ lao động của con người. Trong khi đó, mô hình RT-1 của Google DeepMind cần tới 130.000 lần thử nghiệm được thu thập trong 17 tháng bởi các kỹ thuật viên vận hành. Sự phụ thuộc vào dữ liệu thủ công và mang tính độc quyền như vậy khiến chi phí nghiên cứu tăng mạnh và tập trung năng lực công nghệ vào một số ít phòng thí nghiệm công nghiệp có nguồn lực lớn.

Ali Farhadi, CEO của Allen Institute for AI (Ai2) , cho biết mục tiêu của tổ chức là xây dựng các hệ thống AI giúp thúc đẩy khoa học và mở rộng khả năng khám phá của nhân loại. Theo ông, robot có thể trở thành một công cụ khoa học nền tảng, giúp các nhà nghiên cứu tiến nhanh hơn và đặt ra những câu hỏi mới. Để đạt được điều đó, cần có các hệ thống AI có thể tổng quát hóa trong thế giới thực và những công cụ mà cộng đồng nghiên cứu toàn cầu có thể cùng nhau phát triển. Việc chứng minh khả năng chuyển giao từ môi trường mô phỏng sang thực tế là một bước tiến quan trọng theo hướng này.

Nhóm nghiên cứu tại Ai2 đã đề xuất một mô hình kinh tế khác với MolmoBot, bộ mô hình robot thao tác được huấn luyện hoàn toàn bằng dữ liệu tổng hợp. Thay vì sử dụng con người điều khiển robot để thu thập dữ liệu, nhóm đã tạo các quỹ đạo chuyển động theo cách tự động trong một hệ thống mô phỏng có tên MolmoSpaces.

Bộ dữ liệu đi kèm, MolmoBot-Data , chứa khoảng 1,8 triệu quỹ đạo thao tác ở cấp độ chuyên gia. Tập dữ liệu này được tạo ra bằng cách kết hợp công cụ vật lý MuJoCo với kỹ thuật “domain randomisation”, thay đổi ngẫu nhiên vật thể, góc nhìn camera, ánh sáng và các yếu tố động lực học để tăng tính đa dạng của môi trường mô phỏng.

Ranjay Krishna, Giám đốc nhóm PRIOR tại Ai2, cho biết phần lớn các phương pháp hiện nay cố gắng thu hẹp khoảng cách giữa mô phỏng và thực tế bằng cách bổ sung thêm dữ liệu từ thế giới thật. Tuy nhiên, nhóm của ông lại đặt cược theo hướng ngược lại: khoảng cách đó có thể giảm khi mở rộng mạnh mẽ sự đa dạng của môi trường mô phỏng, vật thể và điều kiện camera. Theo ông, bước tiến này giúp chuyển trọng tâm của ngành robot từ việc thu thập dữ liệu thủ công sang việc thiết kế các thế giới ảo tốt hơn, một bài toán có thể giải quyết bằng công nghệ.

Để tạo ra dữ liệu mô phỏng cho AI vật lý, nhóm đã sử dụng 100 GPU Nvidia A100. Hệ thống có thể tạo ra khoảng 1.024 lần thử nghiệm cho mỗi GPU-giờ, tương đương hơn 130 giờ trải nghiệm của robot chỉ trong một giờ thời gian thực.

So với việc thu thập dữ liệu ngoài đời thật, phương pháp này giúp tăng thông lượng dữ liệu gần bốn lần, từ đó rút ngắn chu kỳ phát triển và cải thiện hiệu quả đầu tư cho các dự án robot.

Bộ MolmoBot bao gồm ba loại chính sách điều khiển khác nhau và được thử nghiệm trên hai nền tảng phần cứng: robot di động Rainbow Robotics RB-Y1 và cánh tay robot Franka FR3 đặt trên bàn. Mô hình chính sử dụng nền tảng thị giác-ngôn ngữ Molmo2, xử lý nhiều khung hình RGB cùng với hướng dẫn bằng ngôn ngữ để quyết định hành động của robot.

Đối với các môi trường điện toán biên có tài nguyên hạn chế, nhóm nghiên cứu cũng cung cấp MolmoBot-SPOC, một mô hình transformer nhẹ với số tham số ít hơn. Ngoài ra còn có MolmoBot-Pi0, sử dụng kiến trúc PaliGemma tương tự mô hình π0 của Physical Intelligence, cho phép so sánh hiệu năng trực tiếp.

Trong các thử nghiệm thực tế, các mô hình này có thể chuyển giao sang nhiệm vụ ngoài đời thật mà không cần tinh chỉnh thêm, ngay cả khi phải làm việc với những vật thể hoặc môi trường chưa từng xuất hiện trong dữ liệu huấn luyện.

Trong bài kiểm tra gắp và đặt vật thể trên bàn, mô hình MolmoBot chính đạt tỷ lệ thành công 79,2%. Con số này vượt qua π0.5, một mô hình được huấn luyện bằng lượng lớn dữ liệu thực tế, chỉ đạt 39,2%. Trong các nhiệm vụ thao tác di động, robot cũng có thể thực hiện thành công những hành động như tiến lại gần, nắm tay nắm cửa và kéo cửa mở hoàn toàn.

Việc cung cấp nhiều kiến trúc khác nhau giúp các tổ chức có thể tích hợp hệ thống AI vật lý mạnh mẽ mà không bị phụ thuộc vào một nhà cung cấp độc quyền hay hạ tầng thu thập dữ liệu phức tạp.

Toàn bộ hệ sinh thái MolmoBot – bao gồm dữ liệu huấn luyện, quy trình tạo dữ liệu và kiến trúc mô hình – đều được phát hành dưới dạng mã nguồn mở. Điều này cho phép các tổ chức tự kiểm tra, điều chỉnh và triển khai hệ thống AI vật lý với chi phí kiểm soát được.

Ali Farhadi nhấn mạnh rằng để AI thực sự thúc đẩy khoa học, sự tiến bộ không thể phụ thuộc vào dữ liệu đóng hay các hệ thống biệt lập. Thay vào đó, cần có hạ tầng chung để các nhà nghiên cứu trên khắp thế giới có thể cùng xây dựng, thử nghiệm và cải thiện. Theo ông, đó chính là con đường để AI vật lý tiếp tục phát triển trong tương lai.

Thứ Hai, 16/03/2026 20:45

3 ★ 1 👨 11

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!