Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Bàn về công nghệ 4.0
Bàn về công nghệ 4.0

Tại sao giữa năm 2026, tôi vẫn cặm cụi tự build RAG chạy offline?
Việc xây dựng hệ thống RAG chạy cục bộ giúp người dùng duy trì quyền chủ quyền dữ liệu và đảm bảo tính bảo mật trong các lĩnh vực nhạy cảm. Giải pháp này loại bỏ sự phụ thuộc vào internet, giảm chi phí lưu trữ đám mây và tránh tình trạng bị ràng buộc bởi các nhà cung cấp dịch vụ lớn.
Công cụ OmniMind kết hợp Obsidian, Zotero và LM Studio để tạo ra trợ lý nghiên cứu ngoại tuyến an toàn. Hệ thống hỗ trợ đồng bộ hóa dữ liệu thời gian thực và tích hợp khả năng nhận diện ký tự quang học qua mô hình thị giác, giúp xử lý tài liệu mà không cần gửi thông tin ra bên ngoài.
Nhiều người hỏi mình một câu rất thực tế:
“Ủa, giữa năm 2026 rồi, cloud AI mạnh như vũ bão, sao ông vẫn ám ảnh với việc chạy RAG bằng model local làm gì cho mệt? Nó vừa chậm, vừa kém thông minh hơn. NotebookLM của Google làm quá tốt rồi. Claude Desktop thì bá đạo với MCP kết nối đủ thứ từ Slack, Outlook đến WhatsApp…”
Nhìn bên ngoài, nhận định đó hoàn toàn đúng. Những giải pháp enterprise do các tập đoàn công nghệ lớn phát triển chạy cực kỳ mượt mà.
Nhưng có một cái giá mà chúng ta bắt buộc phải đánh đổi khi dùng chúng: Quyền chủ quyền dữ liệu (Data Sovereignty).
Khi bạn đưa toàn bộ tài liệu, ghi chú của mình lên mây để AI đọc, bạn phải đối mặt với ba vấn đề lớn:
Mình muốn tự chủ. Mình không muốn bị khóa chặt vào một hệ sinh thái (vendor lock-in) nào cả. Đó là lý do mình muốn có một phiên bản NotebookLM bỏ túi chạy hoàn toàn offline ngay trên chiếc máy tính của mình.
Mình không cố gắng tự viết lại mọi thứ từ đầu. Thay vào đó, mình chọn cách kết hợp những mảnh ghép mạnh mẽ và quen thuộc nhất của giới nghiên cứu:

Tất cả những gì mình làm là dùng kinh nghiệm phát triển RAG của mình để viết một plugin kết nối chúng lại với nhau. Và thế là OmniMind ra đời.
OmniMind là một plugin mã nguồn mở dành riêng cho LM Studio, mang lại trải nghiệm tra cứu tài liệu thông minh giống như NotebookLM nhưng an toàn tuyệt đối:

Có thể nó không nhanh hay mượt bằng việc chạy trên cụm server hàng ngàn GPU của các Big Tech, nhưng nó mang lại thứ giá trị nhất: Sự tự do và an tâm tuyệt đối.
Nếu bạn cũng là một người kỹ tính với dữ liệu của mình, thích tự chủ công nghệ và muốn biến chiếc máy tính cá nhân thành một trợ lý nghiên cứu bảo mật, hãy thử trải nghiệm OmniMind nhé.
👉 Link plugin: https://lmstudio.ai/phuocnguyen90/omnimind
Giả định rằng người dùng đã cài đặt sẵn Obsidian và Zotero trên máy
1. Tải và Cài đặt LMStudio https://lmstudio.ai/
2. Tải một mô hình LLM phù hợp với cấu hình máy của bạn như: gemma-4-e4b, một mô hình embeding như embeddinggemma-300m-qat-GGUF

3. Tải thêm ggml-org/DeepSeek-OCR-GGUF để nhận diện chữ (OCR) với pdf không thuần text
4. Tải và cài đặt plugin https://lmstudio.ai/phuocnguyen90/omnimind
5. Kích hoạt plugin và cài đặt các đường dẫn đến thư viện Zotero và Obsidian trên máy (nếu không biết đường dẫn thì có thể thử mặc định tại C:\Users\<tên user bạn>\Zotero và %APPDATA%\Obsidian\ )

6. Ở lần chạy đầu tiên, plugin sẽ tiến hành tạo cơ sở dữ liệu. Tùy vào cấu hình máy và lượng dữ liệu hiện có, việc này có thể kéo dài từ vài phút đến vài tiếng. Bạn có thể theo dõi tiến trình này tại http://localhost:4733/

7. Load mô hình và cài đặt system prompt


8. Chat với mô hình đã load
