Tại sao sử dụng Linux cho các LLM cục bộ lại dễ hơn so với Windows?

Trong một thời gian dài, việc chạy các mô hình ngôn ngữ lớn cục bộ dường như chỉ dành cho những người có GPU desktop to như lò nướng bánh mì. Nếu bạn đang sử dụng một chiếc laptop Linux khiêm tốn, thông điệp ngầm khá rõ ràng: Tham vọng cao, nhưng phần cứng không phù hợp. Thực tế đó đã thay đổi. Một cách lặng lẽ, và nhanh hơn nhiều người nhận ra.

Hãy bắt đầu với những kỳ vọng thực tế!

Cửa sổ hiển thị một hệ thống laptop khiêm tốn.
Cửa sổ hiển thị một hệ thống laptop khiêm tốn.

Hãy nói rõ ngay từ đầu. Một chiếc laptop chạy Linux Mint 8GB RAM hoàn toàn có thể chạy các mô hình cục bộ. Tuy nhiên, nó không thể xử lý mọi mô hình phức tạp mà bạn thấy trên Reddit bằng phương pháp "brute force".

Với phần cứng thuộc phân khúc này, hiệu năng ổn định sẽ như sau:

  • Các mô hình 3B đến 4B chạy mượt mà.
  • Các mô hình 7B là khả thi nhưng nặng hơn đáng kể.
  • Bất cứ mô hình nào lớn hơn sẽ bắt đầu thử thách sự kiên nhẫn của bạn và hệ thống làm mát.

Tin tốt là các mô hình nhỏ trong năm 2026 không còn như trước nữa. Đối với công việc hàng ngày như soạn thảo, tóm tắt, động não và hỗ trợ lập trình nhẹ, một mô hình 3B được tinh chỉnh tốt vẫn hoạt động hiệu quả đáng ngạc nhiên.

Ngoài ra còn có vấn đề về GPU. Với đồ họa tích hợp AMD trên Mint, giải pháp ít gây khó chịu nhất hiện nay vẫn là suy luận CPU bằng cách sử dụng các mô hình lượng tử hóa. Nó không hào nhoáng, nhưng ổn định và dễ dự đoán, và đối với một chiếc máy tính sử dụng hàng ngày, sự dễ dự đoán là yếu tố quan trọng.

Khắc phục tình trạng quá tải bộ nhớ trước khi làm bất cứ điều gì khác

Bước này âm thầm quyết định trải nghiệm sử dụng sẽ mượt mà hay khó chịu

Lệnh Terminal để mở rộng swapfile
Lệnh Terminal để mở rộng swapfile

Hầu hết các hướng dẫn đều bỏ qua bước cài đặt mô hình. Đó là lý do tại sao mọi người tự hỏi lý do chiếc laptop vốn dĩ rất tốt của họ lại đột nhiên hoạt động chậm chạp như đang lội qua vũng bùn.

Nếu bạn đang sử dụng 8GB RAM với swapfile nhỏ, các mô hình LLM cục bộ sẽ đẩy hệ thống vào tình trạng quá tải bộ nhớ nhanh hơn bạn tưởng. Trên laptop Mint, swapfile đã có dấu hiệu hoạt động không ổn định trong quá trình sử dụng desktop thông thường. Việc load một mô hình chỉ làm cho điều đó trở nên rõ ràng hơn, vì vậy hai điều chỉnh nhỏ đã tạo ra sự khác biệt rất đáng kể.

Đầu tiên, hãy tăng kích thước swapfile. Việc tăng từ khoảng 2GB lên khoảng 8GB sẽ giúp hệ thống có thêm không gian để hoạt động khi các mô hình đột ngột tăng mức sử dụng bộ nhớ.

Thứ hai, hãy cân nhắc bật zram. Điều này tạo ra swapfile được nén trong RAM và giúp làm mượt các đợt quá tải ngắn hạn. Trên các hệ thống dựa trên Ubuntu như Mint, việc cài đặt zram-tools thường là đủ để bắt đầu.

Tất cả những điều này không biến laptop của bạn thành một máy trạm. Điều nó làm được là ngăn chặn những khoảnh khắc mà mọi thứ đột nhiên hoạt động không ổn định.

Sử dụng Ollama làm trình chạy mô hình cục bộ của bạn

Đây là cách đơn giản nhất để bắt đầu

Có rất nhiều cách để chạy mô hình cục bộ trên Linux. Một số mạnh mẽ. Một số mang tính giáo dục. Một số là cách tuyệt vời để bạn dành cả buổi tối để tìm lỗi dependency. Nếu mục tiêu của bạn là thiết lập một hệ thống ChatGPT cục bộ sạch sẽ trên Mint mà không gặp phải những rắc rối không cần thiết, Ollama hiện đang là lựa chọn rất tốt.

Việc cài đặt khá đơn giản:

curl -fsSL https://ollama.com/install.sh | sh

Sau khi hoàn tất, hãy kiểm tra với một mô hình nhỏ:

ollama run llama3.2:3b

Nếu mọi thứ được kết nối đúng cách, bạn sẽ tham gia vào một phiên trò chuyện cục bộ ngay trong terminal. Đây là bước kiểm tra quan trọng đầu tiên. Nếu phản hồi được truyền tải với tốc độ hợp lý, phần cứng của bạn nằm trong phạm vi phù hợp. Điều làm cho Ollama đặc biệt thân thiện là nó xử lý việc tải xuống, định dạng và phân phối mô hình mà không biến quá trình này thành một dự án cuối tuần.

Thêm Open WebUI để có trải nghiệm ChatGPT đầy đủ

Đây là lúc mọi thứ bắt đầu trở nên hoàn thiện hơn

Ollama bắt đầu với WebUI
Ollama bắt đầu với WebUI

Trò chuyện trên terminal rất tuyệt vời để thử nghiệm. Nó không thực sự tuyệt vời cho việc sử dụng hàng ngày trừ khi bạn thực sự thích sống trong hình chữ nhật đen đó.

Open WebUI được xây dựng trên nền tảng Ollama và cung cấp cho bạn những gì hầu hết mọi người thực sự muốn: Giao diện trình duyệt sạch sẽ, lịch sử hội thoại và chuyển đổi mô hình dễ dàng. Nói cách khác, trải nghiệm ChatGPT quen thuộc, nhưng chạy trên máy tính của riêng bạn.

Nếu Docker đã được cài đặt trên hệ thống Mint của bạn, việc khởi chạy nó rất nhanh chóng:

docker run -d \ -p 3000:8080 \ --name open-webui \ --restart always \ --add-host=host.docker.internal:host-gateway \ -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \ -v open-webui:/app/backend/data \ ghcr.io/open-webui/open-webui:main

Sau đó mở:

http://localhost:3000

Tạo tài khoản của bạn, chọn mô hình, và đột nhiên chiếc laptop Linux Mint bình thường của bạn đang chạy trợ lý AI riêng. Đây là lúc toàn bộ thiết lập không còn cảm thấy lý thuyết nữa mà bắt đầu cảm thấy thực sự hữu ích.

Chọn mô hình thực sự phù hợp với phần cứng của bạn

Cửa sổ Terminal hiển thị các mô hình khác nhau.
Cửa sổ Terminal hiển thị các mô hình khác nhau.

Việc lựa chọn mô hình quan trọng hơn hầu hết mọi thứ khác trên hệ thống 8GB. Chọn kích thước quá lớn, trải nghiệm sẽ nhanh chóng giảm sút. Đưa ra lựa chọn khôn ngoan, bạn sẽ thấy nó mượt mà đến bất ngờ.

Đối với laptop thuộc dòng Ryzen với 8 GB RAM, các mô hình sau thường hoạt động tốt:

  • Llama 3.2 3B instruct
  • Qwen 2.5 3B instruct
  • Phi 3 Mini

Trong sử dụng hàng ngày, các mô hình 3B đạt được sự cân bằng tốt nhất giữa khả năng phản hồi và chất lượng. Bạn sẽ có một khoảng dừng ngắn, sau đó là đầu ra ổn định, hoàn toàn có thể sử dụng được cho việc soạn thảo và hỗ trợ chung. Bạn có thể thử nghiệm với các mô hình 7B ở chế độ lượng tử hóa Q4 nếu tò mò. Chỉ cần đặt ra những kỳ vọng thực tế. Chúng nặng, chậm, nhưng dễ sử dụng bộ nhớ ảo hơn. Ngoài ra, hãy giữ cửa sổ ngữ cảnh ở mức hợp lý. Khoảng 2k đến 4k token thường là vùng thoải mái trên các máy thuộc phân khúc này. Một điều tốt nữa cần ghi nhớ là nhiều mô hình này có quá trình huấn luyện bị cắt ngắn hơn nhiều so với GPT, Gemini hoặc Copilot.

Sự hấp dẫn thầm lặng của việc chạy AI cục bộ trên Mint

Điều làm nhiều người ngạc nhiên nhất không phải là tốc độ thô, mà là cảm giác dễ sử dụng của toàn bộ thiết lập sau khi các vấn đề nhỏ được giải quyết. Linux Mint vẫn là một nền tảng tuyệt vời cho loại thử nghiệm này. Hỗ trợ phần cứng đã hoàn thiện, nền tảng Ubuntu duy trì khả năng tương thích cao, và Cinnamon vẫn giữ được sự mượt mà. Với một chút tinh chỉnh và lựa chọn mô hình hợp lý, ngay cả một chiếc laptop tầm trung cũng có thể chạy một trợ lý AI cục bộ mạnh mẽ.

Các hệ thống quản lý ngôn ngữ cục bộ (LLM) không còn chỉ dành cho những máy trạm cao cấp nữa. Với kỳ vọng đúng đắn và thiết lập cẩn thận, chúng cuối cùng đã nằm trong tầm tay của người dùng Linux thông thường. Và có một điều gì đó vô cùng thỏa mãn khi được chứng kiến ​​chính máy tính của mình thực hiện quá trình xử lý vấn đề.

Thứ Tư, 11/03/2026 10:55
51 👨 97
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo