DeepSeek R1 di VPS: Siap Chat 10 Menit Lagi
Kalau kamu bosan bayar API mahal tapi butuh AI coding & penalaran mirip ChatGPT-o1, DeepSeek R1 jawabannya. Model open-source ini cuma 5 GB dan sudah distreamline buat produksi. Tinggal pasang Ollama di VPS, download model, buka port 8080—selesai.
Di VPS 4 vCore + 16 GB RAM (mulai US$ 12/bulan di provider manapun) kamu bisa serve tim dev sekaligus tanpa GPU. Tutorial ini gua tulis setelah berhasil deploy 3 server berbeda; semua langkah sudah gua uji ulang di Ubuntu 22.04 & 24.04.
Kenapa DeepSeek + Ollama Cocok di VPS
Ollama adalah runtime LLM ringan (Go + C++) yang otomatis pakai CPU multi-thread dan bisa pakai RAM saja. Beda dengan Docker approach yang masih perlu nvidia-docker, Ollama jalan di KVM biasa. DeepSeek R1:7B cuma butuh ±5 GB RAM pas inferensi, jadi 16 GB VPS masih sisa buat nginx, redis, atau app lain.
Keuntungan lain: semua chat tetap di disk kamu—aman GDPR, bebas rate-limit, dan bisa offline. Ollama juga punya REST API kompatibel OpenAI, jadi integrasi ke aplikasi tinggal ganti base_url + api_key random.
Spesifikasi minimum vs nyaman
Minimum: 4 vCPU + 8 GB RAM + 15 GB SSD. Nyaman: 4 vCPU + 16 GB RAM + 50 GB NVMe. Swap 4 GB opsional biar aman pas load tinggi.
Distribusi Linux yang support
Ubuntu ≥20.04, Debian ≥11, CentOS ≥8, Alma ≥9. Intinya kernel ≥5.4 dan systemd aktif. Ollama otomatis download binary static, jadi gak perlu repot compile.
Step-by-Step Install Ollama & DeepSeek R1
Semua command dijalankan sebagai non-root user dengan sudo. Ganti 203.0.113.10 dengan IP publik kamu.
- Update sistem dan pasang dependensi:
sudo apt update && sudo apt install -y curl git python3-venv - Install Ollama (one-liner resmi):
curl -fsSL https://ollama.com/install.sh | sh - Pastikan service aktif:
systemctl --user enable --now ollama
Kalau mau global, tambahkan ke /etc/systemd/system. - Download model DeepSeek R1:7B (±5 GB):
ollama pull deepseek-r1:7b
Pilih 1.5b kalau RAM cuma 8 GB. - Install web UI (opsional tapi recommended):
git clone https://github.com/open-webui/open-webui.git
cd open-webui
python3 -m venv venv && source venv/bin/activate
pip install -r requirements.txt - Jalankan web UI di port 8080:
OLLAMA_BASE_URL=http://127.0.0.1:11434 nohup python main.py & - Buka firewall:
sudo ufw allow 8080/tcp - Akses via browser:
http://203.0.113.10:8080
Buat akun admin pertama, lalu pilih model DeepSeek di dropdown.
Selesai. Respons pertama butuh ±10 detik karena load model ke RAM; seterusnya 3-5 token/s di CPU EPYC 7443.
Tweaks Produksi: Biar Cepat & Stabil
Tambahkan environment variable di ~/.bashrc:export OLLAMA_NUM_PARALLEL=2
export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_KEEP_ALIVE=24h
Reload: systemctl --user restart ollama
Pakai reverse proxy (nginx) + SSL gratis Let’s Encrypt:
server {
listen 443 ssl;
server_name ai.mydomain.id;
ssl_certificate /etc/letsencrypt/live/ai.mydomain.id/fullchain.pem;
ssl_certificate_key /etc/letsencrypt/live/ai.mydomain.id/privkey.pem;
location / {
proxy_pass http://127.0.0.1:8080;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
Enable caching header biar browser hemat bandwidth:
location ~* /(static|assets)/ {
expires 1y; add_header Cache-Control "public, immutable";
}
Kesimpulan
Deploy DeepSeek R1 di VPS cuma butuh 10 menit: install Ollama, pull model, pasang web UI, buka port. Tanpa GPU, tanpa biaya API. Cocok buat internal dev tool, chatbot klien, atau AI coding assistant yang data-nya tetap di server sendiri.
Jangan lupa monitor RAM; kalau spike, turunkan versi model atau tambah swap. Mau integrasi ke Laravel atau Node? Pakai endpoint http://localhost:11434/api/generate dengan JSON sama seperti OpenAI. Langsung coba, dan share benchmark response-nya di forum kesayangan kamu!
FAQ
Tidak. DeepSeek R1:7B jalan di CPU multi-core; 16 GB RAM lebih penting daripada GPU.
±1-2 MB untuk prompt 500 token, tergantung panjang jawaban. Untuk tim 20 user, 1 TB/bulan cukup.
Bisa. Jalankan ollama pull llama3:8b lalu restart open-webui; model baru otomatis muncul di dropdown.