Cách tải miễn phí OpenAI GPT-OSS: Phiên bản ChatGPT có thể chạy offline trên laptop

Vào tháng 8 năm 2025, OpenAI đã lặng lẽ làm một điều mà họ chưa từng làm trong hơn 5 năm qua - cung cấp cho thế giới một mô hình GPT miễn phí, có thể tải xuống.

Được gọi là GPT-OSS, mô hình “mở” này có 2 tùy chọn - phiên bản nhẹ hơn 20B có thể chạy trên laptop hoặc máy chủ đám mây, và phiên bản mạnh mẽ 120B dành cho công việc cấp doanh nghiệp. Không giống như ChatGPT, GPT-OSS chạy hoàn toàn trên cơ sở hạ tầng của riêng bạn, giữ cho dữ liệu cá nhân được bảo mật trong khi cho phép bạn tùy chỉnh mô hình theo nhu cầu chính xác của mình.

Trong hướng dẫn này, bạn sẽ tìm hiểu chính xác cách tải xuống GPT-OSS, thiết lập và đưa nó vào hoạt động - cho dù bạn là nhà phát triển, công ty khởi nghiệp hay nhà lãnh đạo doanh nghiệp.

"Một trong những điều độc đáo về các mô hình mở là mọi người có thể chạy chúng cục bộ. Mọi người có thể chạy chúng phía sau tường lửa cá nhân, trên cơ sở hạ tầng của riêng họ", Greg Brockman, đồng sáng lập OpenAI, cho biết.

GPT-OSS là gì?

GPT-OSS là dòng mô hình ngôn ngữ lớn, trọng số mở mới của OpenAI, được phát hành theo giấy phép Apache 2.0. Điều đó có nghĩa là bạn có thể chạy cục bộ, tùy chỉnh và sử dụng chúng cho mục đích thương mại.

Có hai phiên bản:

  • GPT-OSS-20B: Nhỏ gọn, hiệu quả (3,6 tỷ tham số hoạt động), có thể chạy trên laptop hiện đại với 16GB RAM.
  • GPT-OSS-120B: Một mô hình Mixture of Experts (tổng cộng 117 tỷ tham số, 4 chuyên gia hoạt động), được thiết kế cho GPU cao cấp (80GB+ VRAM).

Không giống như GPT-4 hoặc GPT-3.5, bạn không cần gửi bất kỳ dữ liệu nào đến OpenAI. Bạn có thể tải xuống các mô hình và chạy chúng phía sau tường lửa của mình.

Tại sao GPT-OSS khác biệt so với ChatGPT và GPT-4?

Mặc dù GPT-4 và ChatGPT rất mạnh mẽ, nhưng chúng bị khóa sau máy chủ của OpenAI và yêu cầu trả phí. GPT-OSS đã thay đổi cuộc chơi:

  • Tự host - GPT-OSS chạy trên cơ sở hạ tầng của bạn, không phải của OpenAI
  • Không có chi phí định kỳ - Bạn chỉ trả tiền một lần cho phần cứng/đám mây, không có phí trên mỗi token
  • Riêng tư & bảo mật - Các prompt và dữ liệu của bạn không bao giờ rời khỏi hệ thống của bạn

Đối với các công ty đang tìm kiếm một giải pháp thay thế GPT-4 với quyền kiểm soát hoàn toàn và không bị ràng buộc bởi nhà cung cấp, GPT-OSS là một ứng cử viên sáng giá.

Cách tải xuống GPT-OSS miễn phí

Bạn có thể tải xuống GPT-OSS trực tiếp từ các bản phát hành GitHub chính thức của OpenAI:

  • GPT-OSS 20B - Mô hình nhẹ hơn, chạy trên laptop có VRAM cao hoặc các phiên bản đám mây nhỏ
  • GPT-OSS 120B - Mô hình quy mô doanh nghiệp dành cho trung tâm dữ liệu hoặc GPU cao cấp

Các bước thực hiện như sau:

  1. Truy cập kho lưu trữ GPT-OSS chính thức.
  2. Xác minh checksum của mô hình để đảm bảo tính xác thực.
  3. Tải xuống các file trọng số mô hình và bộ mã hóa.

Hướng dẫn cài đặt GPT-OSS - Chạy GPT cục bộ hoặc trên đám mây

Cho dù bạn muốn chạy GPT-OSS cục bộ hay trên máy chủ đám mây, quá trình cài đặt đều đơn giản:

Triển khai cục bộ (Windows/Mac/Linux)

Triển khai trên đám mây (AWS, Azure, GCP)

  • Chọn một phiên bản GPU có đủ VRAM (ví dụ: A100, H100)
  • Cài đặt các dependency cần thiết
  • Triển khai phía sau API bảo mật để nhóm có thể truy cập

Điều này làm cho GPT-OSS trở thành một trong những mô hình AI tự host dễ dàng nhất vào năm 2025.

Cách cài đặt và chạy GPT-OSS cục bộ

Hướng dẫn này rất đơn giản và không mang tính kỹ thuật, vì vậy người không có kinh nghiệm lập trình cũng có thể làm theo để cài đặt và chạy GPT-OSS cục bộ.

1. Kiểm tra cấu hình máy tính của bạn

Đối với GPT-OSS 20B (phiên bản trung bình)

  • Hoạt động trên laptop/desktop cao cấp
  • Ví dụ: Apple M3 Max với 64 GB RAM
  • Yêu cầu khoảng 12 – 13 GB dung lượng lưu trữ

Đối với GPT-OSS 120B (phiên bản lớn)

  • Cần desktop với GPU NVIDIA cao cấp
  • Không phù hợp với hầu hết các laptop

Mẹo: Bắt đầu với 20B trừ khi bạn có PC hoặc máy trạm rất mạnh.

2. Chọn phương pháp cài đặt

Bạn có 3 cách để chạy GPT-OSS cục bộ.

Các tùy chọn dễ nhất là Ollama hoặc LM Studio (cả hai đều hoạt động trên Mac và Windows).

Tùy chọn A – Sử dụng Ollama (Được khuyến nghị vì tính dễ sử dụng)

  • Truy cập trang web của Ollama.
  • Tải xuống ứng dụng cho Mac, Windows hoặc Linux.
  • Cài đặt và mở ứng dụng Ollama - không cần lệnh terminal.
  • Trong menu drop-down của ứng dụng, tìm các phiên bản GPT-OSS (20B hoặc 120B).
  • Chọn GPT-OSS 20B cho hầu hết các hệ thống.
  • Nhập một message - Ollama sẽ tự động tải xuống mô hình khi bạn chạy lần đầu tiên.
  • Sau khi tải xuống, bạn có thể trò chuyện với GPT-OSS ngoại tuyến.

Thông tin bổ sung: Ollama có chức năng tìm kiếm trên web tùy chọn (yêu cầu tài khoản Ollama miễn phí). Tính năng này hiện tại có thể chậm vì mô hình mới được ra mắt.

Tùy chọn B – Sử dụng LM Studio

  • Truy cập trang web của LM Studio.
  • Tải xuống và cài đặt LM Studio cho hệ điều hành của bạn.
  • Mở LM Studio một lần trước khi sử dụng trình cài đặt dòng lệnh.
  • Mở Terminal (Mac) hoặc PowerShell (Windows).
  • Dán lệnh cài đặt được cung cấp trên trang tải xuống của LM Studio (khác nhau đối với Mac/Windows).
  • Sau khi mô hình được tải xuống, mở LM Studio và vào Discover → GPT-OSS.
  • Chọn mô hình và bắt đầu trò chuyện.

Tùy chọn C – Người dùng kỹ thuật

  • Tải xuống GPT-OSS trực tiếp từ Hugging Face.
  • Yêu cầu kiến ​​thức về Python, PyTorch và lưu trữ mô hình.
  • Phù hợp cho các nhà phát triển muốn kiểm soát nhiều hơn.

3. Sử dụng GPT-OSS trên web (tùy chọn)

  • Bạn có thể thử GPT-OSS tại gptosss.com mà không cần cài đặt bất cứ thứ gì.
  • Chỉ cần nhập vào prompt và xem kết quả.

Lưu ý: Hiệu suất trên web chậm hơn so với chạy cục bộ do lưu lượng truy cập lớn.

4. Mẹo sử dụng nhanh

  • Lần chạy đầu tiên sẽ chậm hơn vì mô hình đang được tải xuống.
  • GPT-OSS có thể hiển thị hoặc ẩn lý do của nó - bạn có thể bật/tắt tùy chọn này trong cài đặt.
  • Phiên bản 20B nhanh hơn nhiều cho mục đích sử dụng thông thường; phiên bản 120B tốt hơn cho các tác vụ phức tạp nhưng cần phần cứng mạnh mẽ.

So sánh hiệu năng: GPT-OSS hoạt động như thế nào?

Loại nhiệm vụMô hình mở hàng đầuĐiểm số / Khả năng
🧠 Kiến thức tổng quátLlama 2 70B68.9 MMLU (gần với GPT-3.5).
🧮 Lý luận & Toán họcDeepSeek R1Phù hợp với GPT-4 trong một số tác vụ nhất định.
🧑‍💻 Tạo codeGPT‑OSS‑120BVượt trội hơn GPT-4 Mini trên một số bài kiểm tra hiệu năng.
📚 Độ chính xác của bản tóm tắtLlama 2 70BĐộ chính xác thực tế đạt 85% (tương đương với GPT-4 trong một số nghiên cứu).
🗣️ Nhiệm vụ đa ngôn ngữBLOOM, Llama, FalconHỗ trợ hơn 46 ngôn ngữ.

Tóm lại, các mô hình mã nguồn mở đạt hoặc vượt trội hơn GPT-3.5. GPT-4 vẫn dẫn đầu trong các tác vụ siêu phức tạp, nhưng khoảng cách đang thu hẹp nhanh chóng.

Thứ Hai, 09/02/2026 15:20
31 👨 126
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo