Gần đây, việc chạy các mô hình ngôn ngữ lớn (LLM) cục bộ đã trở thành một chủ đề nóng trong cộng đồng dev. Với tất cả những tính năng mạnh mẽ mà các công cụ như LM Studio mang lại, rõ ràng đã đến lúc bạn nên nâng cấp hệ thống của mình và ngừng phụ thuộc vào các dịch vụ đám mây.
LM Studio: Ứng dụng LLM cục bộ tốt nhất cho thiết lập AI riêng của bạn
LM Studio vượt trội hơn Ollama trong nhiều trường hợp

Năm ngoái, nhiều người bắt đầu thử nghiệm các LLM cục bộ với Ollama. Nó hoạt động khá tốt, nhưng với chiếc MacBook Air chỉ có 8GB bộ nhớ hợp nhất, hiệu năng thường không đủ đáp ứng. Luôn có một sự tò mò muốn tìm kiếm giải pháp tối ưu hơn.
Đó là lý do tại sao LM Studio trở thành một lựa chọn hấp dẫn. Đây là một ứng dụng cho phép bạn tải xuống và chạy các LLM cục bộ với giao diện người dùng trực quan. Đặc biệt, đối với người dùng Mac, hỗ trợ MLX là một điểm cộng lớn. MLX là framework Machine Learning của Apple, được thiết kế riêng cho Apple Silicon, giúp các mô hình tận dụng GPU hiệu quả hơn đáng kể.
Dù vậy, một so sánh trực tiếp giữa Ollama và LM Studio với cùng một mô hình vẫn cần thiết để có cái nhìn khách quan.

So sánh hiệu năng LM Studio và Ollama (số token mỗi giây)
Ollama có thể đạt số token mỗi giây cao hơn một chút so với LM Studio trong một số trường hợp, nhưng sự khác biệt này thường không đáng kể để thay đổi trải nghiệm tổng thể. Tuy nhiên, bất kỳ cải thiện hiệu năng nào cũng là đáng giá.
Điều quan trọng là cả hai nền tảng đều dựa trên các framework tương tự để chạy mô hình cục bộ. Ban đầu, một hạn chế lớn là thiếu hỗ trợ đa phương thức, nhưng giờ đây cả Ollama và LM Studio đều đã khắc phục được điều này, cho phép bạn chạy các mô hình xử lý cả văn bản và hình ảnh trên phần cứng của mình.
Lựa chọn mô hình LLM phù hợp cho hệ thống cục bộ

Menu Model Search của LM Studio
Sau khi cài đặt LM Studio, bước đầu tiên là chọn một mô hình. Đây có thể là một thách thức nếu bạn mới bắt đầu, vì không có một mô hình 'phù hợp cho tất cả'. Lựa chọn đúng đắn phụ thuộc rất nhiều vào cấu hình phần cứng của bạn.
Trong menu Model Search của LM Studio, bạn sẽ thấy danh sách các mô hình phổ biến. Một mẹo nhỏ để đánh giá mức độ yêu cầu tài nguyên của một mô hình là nhìn vào con số trước chữ 'B' trong tên của nó. Chữ 'B' này viết tắt cho 'tỷ tham số'.
Số tham số càng cao, mô hình càng mạnh mẽ nhưng cũng đòi hỏi nhiều tài nguyên hơn.
Đối với máy Mac với 8GB bộ nhớ hợp nhất: Các mô hình từ 3 đến 4 tỷ tham số là lý tưởng.
Đối với PC: Dung lượng VRAM của GPU quan trọng hơn RAM hệ thống thông thường. Với 8GB VRAM, bạn có thể thử nghiệm thoải mái với các mô hình 7B, đặc biệt là những bản lượng tử hóa nhẹ hơn.
Cách tiếp cận tốt nhất là bắt đầu với một mô hình nhỏ hơn, sau đó dần dần tăng kích thước cho đến khi bạn tìm thấy sự cân bằng tối ưu giữa hiệu năng và tài nguyên. Nhiều người thường ưu tiên mô hình Gemma 3 4B, được xây dựng trên nền tảng Gemini của Google. Tuy nhiên, các mô hình Qwen cũng rất đáng thử, tùy thuộc vào nhu cầu sử dụng cụ thể của bạn.
Thêm tính năng tìm kiếm web vào LLM cục bộ của bạn
DuckDuckGo là giải pháp đơn giản và hiệu quả

Trang plugin DuckDuckGo của LM Studio
Một trong những lời phàn nàn lớn nhất về các LLM cục bộ là chúng thường bị hạn chế về dữ liệu cập nhật so với các LLM đám mây như ChatGPT. Hỏi về iPhone mới nhất mà nó lại trả lời về iPhone 14 là một ví dụ điển hình. Đây là điểm mà các mô hình đám mây thường chiếm ưu thế.
May mắn thay, LM Studio có hệ thống plugin tích hợp sẵn, và việc thêm tính năng tìm kiếm web khá đơn giản. Bạn chỉ cần truy cập trang plugin DuckDuckGo và chọn Run trong LM Studio.
Sau khi kích hoạt, mỗi khi bạn chạy một mô hình, một tùy chọn sẽ xuất hiện bên dưới hộp trò chuyện, hỏi bạn có muốn sử dụng DuckDuckGo cho truy vấn của mình hay không. Nếu bạn bật nó, LM Studio sẽ lấy kết quả tìm kiếm trực tiếp và đưa chúng vào mô hình trước khi tạo phản hồi.

LM Studio tìm kiếm trên web thông qua DuckDuckGo
Ngoài DuckDuckGo, nhóm LM Studio còn phát triển một số plugin hữu ích khác:
Plugin Wikipedia: Cho phép LLM của bạn đọc và tìm kiếm các bài viết từ Wikipedia.
Plugin JavaScript Sandbox: Hữu ích cho các lập trình viên muốn nhanh chóng xây dựng ý tưởng sơ bộ hoặc thử nghiệm code. Tuy nhiên, nó không đủ mạnh để tạo ra sản phẩm sẵn sàng cho môi trường sản xuất.
Bạn cũng có thể cấu hình LM Studio để truy cập LLM từ điện thoại của mình. Thậm chí, việc chạy toàn bộ quá trình suy luận trực tiếp trên điện thoại Android cũng khả thi với các mô hình LLM nhỏ hơn, dù hiệu năng sẽ không bằng trên máy Mac. Các mô hình nhẹ này đang được cải thiện với tốc độ chóng mặt. Với dự đoán chi phí phần cứng sẽ tăng và các công ty như OpenAI hay Google có thể tăng giá thuê bao, việc có một thiết lập AI cục bộ không bị ảnh hưởng bởi những yếu tố này mang lại sự yên tâm đáng kể.



