OpenClaw (trước đây là Clawdbot, từng đổi thành Moltbot trong thời gian ngắn) đã bùng nổ nhanh hơn hầu như mọi dự án tác nhân mà tôi từng thấy.
Chỉ trong chưa đầy ba tuần, dự án đã vượt mốc 100.000 sao trên GitHub. Nhiều người gọi nó là “thực tập sinh AI 24/7”, và thực sự, mô tả đó không sai mấy. Nó có thể đọc tin nhắn, chạy lệnh shell, quản lý tệp và âm thầm hoạt động nền trong khi bạn tiếp tục công việc hằng ngày.
Nhưng sau hào hứng ban đầu, một câu hỏi rất thực tế bắt đầu xuất hiện khắp nơi:
“Hay đấy… nhưng làm sao chạy mà không đốt tiền vào API?”
Chính vì câu hỏi đó mà tôi đã viết hướng dẫn này.
Điều gì khiến OpenClaw (Trước đây là Clawdbot) gây sốt?
Để hiểu sự chuyển dịch kỹ thuật hướng tới chạy cục bộ, trước hết cần nắm rõ OpenClaw thực sự là gì. Cốt lõi, openClaw ( Moltbot / Clawdbot) là một tác nhân tự động “ưu tiên hội thoại”. Khác với chatbot truyền thống sống trong một tab trình duyệt và chờ lời nhắc, OpenClaw chạy như một daemon nền trên máy của bạn. Nó tích hợp trực tiếp với các nền tảng nhắn tin như WhatsApp, Telegram, Discord và Signal, về cơ bản biến ứng dụng chat của bạn thành một giao diện dòng lệnh cho cuộc sống của bạn.
Quá trình phát triển từ Clawdbot đến OpenClaw
Lịch sử dự án vừa biến động vừa hấp dẫn.
Clawdbot (Cuối năm 2025): Được tạo bởi Peter Steinberger, ra mắt như một trình bọc cho Claude của Anthropic, được thiết kế để thực thi tác vụ thay vì chỉ xuất văn bản. Nó được mệnh danh là “Claude có đôi tay”.
Moltbot (Tháng 1 năm 2026): Sau tranh chấp nhãn hiệu với Anthropic về tên “Clawd”, dự án đổi thương hiệu thành “Moltbot”, chọn linh vật tôm hùm tên “Molty” (ám chỉ việc lột xác của vỏ).
OpenClaw (Ngày 30 tháng 1, 2026): Để nhấn mạnh tính mã nguồn mở và tạo khoảng cách hơn nữa với các nhận diện doanh nghiệp cụ thể trong khi vẫn giữ di sản “Claw”, cộng đồng đã thống nhất dùng tên OpenClaw.
Điểm khác biệt của OpenClaw là hệ thống cấp quyền. Nó có thể đọc email của bạn, kiểm tra lịch, thực thi lệnh shell và thậm chí tự quản lý bộ nhớ của mình trong các tệp Markdown lưu cục bộ. Tuy nhiên, cấu hình mặc định dựa vào việc gửi toàn bộ ngữ cảnh này lên API đám mây (chủ yếu Anthropic hoặc OpenAI), dẫn tới hai vấn đề cốt yếu: Chi phí và Quyền riêng tư.
Vì sao nên chuyển sang LLM cục bộ?
Trải nghiệm “out-of-the-box” mặc định của openClaw ( Moltbot / Clawdbot) chạy bằng Claude 3.5 Sonnet hoặc Opus. Dù các mô hình này rất thông minh, chúng tính phí theo token. Một tác nhân tự động chạy 24/7—kiểm tra email, giám sát log máy chủ, tóm tắt cuộc trò chuyện—có thể tạo ra hàng triệu token mỗi ngày.
Chi phí của tính tự động
Các tác nhân tự động không hành xử như phiên chat. Chúng lặp lại. Chúng đọc lại ngữ cảnh. Chúng tóm tắt log. Chúng kiểm tra hộp thư hết lần này đến lần khác.
Tôi đã thấy người dùng báo cáo như:
“Tôi để Clawdbot chạy qua đêm để sắp xếp lại kho Obsidian và sáng dậy nhận hóa đơn $40.”
Đó không phải lạm dụng — mà đơn giản là cách tính tự động vận hành.
Với mô hình cục bộ, chi phí biên giảm về 0 (ngoại trừ điện năng). Bạn ngừng suy nghĩ “mình có nên để nó chạy không?” và bắt đầu suy nghĩ “mình còn có thể tự động hóa gì nữa?”
Quyền riêng tư không chỉ là lợi ích phụ — đó là lợi ích chính
openClaw ( Moltbot / Clawdbot) có thể đọc:
- Lịch sử chat
- Mã nguồn
- Tài liệu cá nhân
OpenClaw được thiết kế để có quyền truy cập sâu vào hệ thống của bạn. Nó đọc tin nhắn cá nhân và hệ thống tệp của bạn. Khi dùng API, mọi tệp mà bot đọc đều được tải lên máy chủ bên thứ ba để xử lý. Bằng cách dùng LLM cục bộ, không dữ liệu nào rời khỏi mạng nội bộ của bạn. Tài liệu tài chính, chat riêng tư và codebase của bạn vẫn tách biệt hoàn toàn khỏi Big Tech.
Chạy OpenClaw với Ollama (Khuyến nghị mặc định của tôi)
Nếu bạn quen với terminal, Ollama là cách dễ nhất để chạy LLM cục bộ hiện nay.
openClaw ( Moltbot / Clawdbot) giao tiếp qua API tương thích OpenAI. Ollama mặc định cung cấp một API như vậy. Đó chính là mấu chốt.
Danh sách kiểm tra tối thiểu về hệ thống và phần mềm
- Một máy với hệ điều hành mới (Linux/macOS/Windows + WSL2). Khuyến nghị tăng tốc GPU cục bộ cho mô hình lớn; chỉ CPU phù hợp cho mô hình nhỏ hoặc tác vụ nhẹ.
- Node.js ≥ 22 (CLI và Gateway của OpenClaw yêu cầu Node).
- Ollama (hoặc runtime LLM cục bộ khác) cài trên máy nếu bạn dự định chạy mô hình cục bộ. Ollama mặc định mở API tương thích OpenAI (thường tại
http://localhost:11434). - Nếu dùng proxy như Lynkr, hãy cài (npm hoặc clone repo). Lynkr có thể cung cấp endpoint kiểu Anthropic/OpenAI cho OpenClaw đồng thời định tuyến tới mô hình cục bộ.
Bước 1: Cài đặt OpenClaw (lệnh nhanh)
OpenClaw khuyến nghị cài qua npm/pnpm. Chạy:
# install OpenClaw CLI globally (Node >= 22)
npm install -g openclaw@latest
# or using pnpm
pnpm add -g openclaw@latest
# run first-time onboarding (installs Gateway daemon)
openclaw onboard --install-daemon
Trình hướng dẫn onboarding sẽ cài daemon dịch vụ người dùng (systemd/launchd) để Gateway chạy nền liên tục. Sau onboarding bạn có thể chạy Gateway thủ công để debug:
openclaw gateway --port 18789 --verbose
Bước 2: Cài đặt Ollama và kéo mô hình
Ollama rất dễ cài và chạy. Trên macOS/Linux:
# install Ollama (one-line installer)
curl -fsSL https://ollama.com/install.sh | sh
# pull a recommended assistant model (example)
ollama pull kimi-k2.5
# verify Ollama is running (default API on port 11434)
ollama list
# or check HTTP
curl http://localhost:11434/v1/models
Ollama cung cấp API tương thích với nhiều client kiểu OpenAI; tích hợp nhà cung cấp của OpenClaw hỗ trợ Ollama và sẽ tự động phát hiện instance Ollama cục bộ nếu có, trừ khi bạn ghi đè cấu hình.
Bước 3: Cấu hình mô hình tối thiểu cho OpenClaw
triển khai lớp tương thích (Lynkr) hoặc cấu hình OpenClaw trỏ tới endpoint cục bộ
Do openClaw ( Moltbot / Clawdbot) lịch sử sử dụng một số dạng API (ví dụ endpoint kiểu Anthropic), cách dễ nhất là chạy một proxy nhỏ dịch các lời gọi của OpenClaw sang API của server cục bộ.
- Lynkr: cài và cấu hình Lynkr lắng nghe trên cổng mà OpenClaw kỳ vọng; cấu hình để chuyển tiếp tới instance Ollama/text-generation-webui của bạn. Tài liệu cộng đồng có các bước và mẫu
config.json. Sau khi Lynkr chạy, OpenClaw có thể giữ cấu hình nhà cung cấp ban đầu nhưng thực tế sẽ giao tiếp với mô hình cục bộ.
Nếu bạn muốn chỉnh cấu hình OpenClaw trực tiếp, hãy trỏ URL backend mô hình trong cấu hình .openclaw tới endpoint server cục bộ của bạn:
openClaw ( Moltbot / Clawdbot) lưu cấu hình tại ~/.openclaw/openclaw.json. Một tệp tối thiểu để ưu tiên mô hình cục bộ như sau:
{
"agent": {
"model": "ollama/kimi-k2.5"
},
"models": {
"providers": {
"ollama": {
"name": "Ollama (local)",
"options": {
"baseURL": "http://127.0.0.1:11434/v1"
}
}
}
}
}
Nếu bạn bỏ khối models.providers.ollama, openClaw ( Moltbot / Clawdbot) thường sẽ tự phát hiện instance Ollama cục bộ nếu có. Dùng openclaw models list và openclaw models set để quản lý cài đặt mô hình tương tác mà không cần chỉnh tệp trực tiếp.
Bước 4: Khởi động OpenClaw và thử gửi tin nhắn
Với Ollama chạy và Gateway hoạt động:
# start the gateway (if not running as a daemon)
openclaw gateway --port 18789 --verbose
# send a test message to the agent
openclaw agent --message "Hello from local OpenClaw" --thinking low
Nếu Gateway và mô hình được cấu hình đúng, bạn sẽ thấy trợ lý phản hồi và tin nhắn được định tuyến qua mô hình Ollama cục bộ.
Tôi có thể tránh sửa OpenClaw bằng proxy không?
Có — đó chính là điều các công cụ proxy như Lynkr làm: chúng cung cấp endpoint kiểu Anthropic/OpenAI cho openClaw ( Moltbot / Clawdbot) đồng thời lắng nghe trên cổng mà OpenClaw kỳ vọng và chuyển tiếp nội dung tới instance Ollama hoặc text-generation-webui cục bộ. Điều này rất giá trị vì không cần khóa API, không hóa đơn đám mây, và thực thi mô hình cục bộ, tránh phải thay đổi nội bộ OpenClaw mà vẫn cho bạn quyền kiểm soát cục bộ.
Tổng quan kiến trúc (các thành phần giao tiếp với nhau thế nào)
- OpenClaw (agent/app) — trợ lý chính, phát sinh lời gọi mô hình và điều phối công cụ cùng tích hợp nhắn tin.
- LLM proxy (ví dụ, Lynkr) — nhận request kiểu API từ OpenClaw và chuyển tiếp tới server mô hình cục bộ (hoặc dự phòng đám mây). Proxy cũng có thể triển khai cache, cắt bớt token và nén bộ nhớ để giảm chi phí.
- Server LLM cục bộ (ví dụ, Ollama, runtime ggml độc lập, Llama.cpp, mô hình container hóa cục bộ) — phục vụ suy luận mô hình trên máy. Ollama phổ biến vì cung cấp server cục bộ dễ dùng và quy trình đóng gói mô hình tiện lợi; các runtime khác cũng khả dụng.
- Tùy chọn dự phòng đám mây — proxy có thể định tuyến các yêu cầu phức tạp tới mô hình đám mây khi cần (chế độ lai).
Vì sao dùng proxy thay vì vá trực tiếp openClaw?
Quyền riêng tư & TCO: Suy luận cục bộ giữ dữ liệu trên máy và tránh hóa đơn API.
Tương thích: openClaw ( Moltbot / Clawdbot) kỳ vọng một bề mặt API nhất định (kiểu Anthropic/“Copilot”). Proxy giữ nguyên bề mặt đó để OpenClaw hầu như không cần thay đổi.
An toàn & linh hoạt: Proxy có thể triển khai quy tắc định tuyến (ưu tiên cục bộ, dự phòng đám mây), giới hạn tốc độ, cắt yêu cầu và các biện pháp an toàn khác.
Ví dụ: cấu hình Lynkr định tuyến tới Ollama cục bộ
- Cài Lynkr:
npm install -g lynkr
# or: git clone https://github.com/Fast-Editor/Lynkr.git && npm install
- Tạo
.env(ví dụ):
cp .env.example .env
Sửa .env như sau:
# primary provider: local Ollama
MODEL_PROVIDER=ollama
OLLAMA_MODEL=kimi-k2.5
OLLAMA_ENDPOINT=http://localhost:11434
# optional hybrid fallback
PREFER_OLLAMA=true
FALLBACK_ENABLED=true
FALLBACK_PROVIDER=openrouter
OPENROUTER_API_KEY=sk-...
- Khởi động Lynkr:
# if installed globally
lynkr
# if cloned
npm start
Mặc định Lynkr sẽ cung cấp một proxy cục bộ (ví dụ: http://localhost:8081) và một endpoint /v1 tương thích OpenAI/Anthropic mà OpenClaw có thể trỏ tới. Sau đó cấu hình nhà cung cấp mô hình của OpenClaw dùng base URL của Lynkr (xem đoạn dưới).
Trỏ OpenClaw tới endpoint của Lynkr
Bạn có thể sửa ~/.openclaw/openclaw.json hoặc dùng CLI để đặt base URL nhà cung cấp:
{
"models": {
"providers": {
"copilot": {
"options": {
"baseURL": "http://localhost:8081/v1"
}
}
}
},
"agent": {
"model": "kimi-k2.5"
}
}
Giờ openClaw ( Moltbot / Clawdbot) sẽ gọi http://localhost:8081/v1 (Lynkr), và Lynkr sẽ định tuyến vào ollama://kimi-k2.5 trên máy. Bạn có trải nghiệm liền mạch như nhà cung cấp bên ngoài mà không rời khỏi máy của mình.
Với người dùng thích Giao diện Đồ họa (GUI) để quản lý mô hình, hoặc muốn dùng các mô hình đã lượng tử (định dạng GGUF) từ Hugging Face, LM Studio là lựa chọn ưu tiên.
Chạy tác nhân tự động cục bộ có an toàn không?
Đây có lẽ là câu hỏi quan trọng nhất. Khi chạy openClaw ( Moltbot / Clawdbot), bạn thực chất đang trao quyền shell cho một AI trên máy tính của mình.
Vấn đề “Sudo”
Nếu bạn yêu cầu Claude chạy trên đám mây “xóa tất cả tệp trong thư mục Documents của tôi”, nó có thể từ chối vì bộ lọc an toàn. Một mô hình Llama 3 cục bộ, không kiểm duyệt, thì không có rào cản như vậy. Nếu openClaw ( Moltbot / Clawdbot) hiểu sai lệnh, về lý thuyết nó có thể thực thi các lệnh phá hủy.
Thực hành bảo mật tốt
Chạy trong Docker: Không nên chạy openClaw ( Moltbot / Clawdbot) trực tiếp trên “bare metal” của máy chủ trừ khi bạn hoàn toàn hiểu rủi ro. Hãy dùng image Docker chính thức để hộp cát hóa môi trường.
Ví dụ dưới đây là docker-compose.yml tối thiểu minh họa ba dịch vụ: Ollama (runtime mô hình cục bộ), Lynkr (proxy) và OpenClaw Gateway (CLI chạy trong container). Lưu ý: điều chỉnh volume và truyền thiết bị để truy cập GPU khi cần.
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ./ollama-data:/var/lib/ollama
lynkr:
build: ./lynkr
restart: unless-stopped
ports:
- "8081:8081"
environment:
- MODEL_PROVIDER=ollama
- OLLAMA_ENDPOINT=http://ollama:11434
openclaw:
image: node:22
working_dir: /workspace
volumes:
- ~/.openclaw:/root/.openclaw
- ./workspace:/workspace
command: sh -c "npm install -g openclaw && openclaw gateway --host 0.0.0.0 --port 18789"
depends_on:
- lynkr
Đây chỉ là stack minh họa; triển khai sản xuất nên bổ sung cô lập mạng, giới hạn tài nguyên và ánh xạ thiết bị GPU phù hợp.
Các bước xử lý sự cố thường gặp và hạn chế
Nếu openClaw ( Moltbot / Clawdbot) không thấy Ollama
- Đảm bảo Ollama đang chạy và base URL truy cập được (
http://127.0.0.1:11434/v1). - Dùng
openclaw models listvàopenclaw doctorđể hiển thị vấn đề cấu hình.
Nếu định tuyến của Lynkr lỗi
- Xác nhận Lynkr đang lắng nghe (thường
http://localhost:8081). - Kiểm tra
.envxemOLLAMA_ENDPOINTvàMODEL_PROVIDERcó đúng không. - Xác thực Lynkr ánh xạ các đường dẫn
/v1mà openClaw ( Moltbot / Clawdbot) gọi — một số triển khai nhà cung cấp kỳ vọng đường dẫn hơi khác; điều chỉnh base path nếu cần.
Khoảng trống năng lực mô hình
Mô hình cục bộ rất đa dạng: có mô hình giỏi code, có mô hình giỏi trò chuyện. Chiến lược lai (ưu tiên cục bộ, dự phòng đám mây) có thể hữu ích: định tuyến tác vụ thường nhật cục bộ và nâng cấp suy luận phức tạp lên mô hình đám mây kèm cache để giảm chi phí. Lynkr và các proxy tương tự triển khai đúng logic này.
Kết luận
Thiết kế của OpenClaw và hệ sinh thái năng động xung quanh khiến việc triển khai cục bộ, không cần API trở nên thực tế ngay hôm nay. Với các công cụ như Ollama để lưu trữ cục bộ, Lynkr cho dịch API, cùng tài liệu cộng đồng phong phú, bạn có thể chạy các tác nhân mạnh mẽ trên những máy do bạn kiểm soát — từ desktop GPU đến thiết bị cầm tay — mà không gửi dữ liệu tới nhà cung cấp LLM bên thứ ba.
Tuy nhiên, nếu bạn cân nhắc ưu nhược điểm, ví dụ vẫn muốn dùng openClaw ( Moltbot / Clawdbot) qua API khi thiếu thiết bị cần thiết, thì tôi khuyến nghị CometAPI. Nền tảng cung cấp các endpoint Anthropic và OpenAI và thường xuyên có ưu đãi—thường giảm 20% so với giá chính thức.
Các nhà phát triển có thể truy cập và Claude Sonnet/ Opus 4.5 và GPT-5.2 qua CometAPI, danh sách mô hình mới nhất tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá khả năng của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, hãy đảm bảo bạn đã đăng nhập CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
Sẵn sàng bắt đầu?→ Đăng ký Gemini 3 ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
%20on%20local%20LLMs%20without%20API.png&w=3840&q=75)