DeepSeek R1 di VPS: Install Ollama Langsung Jalan

DeepSeek R1 di VPS: Siap Chat 10 Menit Lagi

Kalau kamu bosan bayar API mahal tapi butuh AI coding & penalaran mirip ChatGPT-o1, DeepSeek R1 jawabannya. Model open-source ini cuma 5 GB dan sudah distreamline buat produksi. Tinggal pasang Ollama di VPS, download model, buka port 8080—selesai.

Di VPS 4 vCore + 16 GB RAM (mulai US$ 12/bulan di provider manapun) kamu bisa serve tim dev sekaligus tanpa GPU. Tutorial ini gua tulis setelah berhasil deploy 3 server berbeda; semua langkah sudah gua uji ulang di Ubuntu 22.04 & 24.04.

Kenapa DeepSeek + Ollama Cocok di VPS

Ollama adalah runtime LLM ringan (Go + C++) yang otomatis pakai CPU multi-thread dan bisa pakai RAM saja. Beda dengan Docker approach yang masih perlu nvidia-docker, Ollama jalan di KVM biasa. DeepSeek R1:7B cuma butuh ±5 GB RAM pas inferensi, jadi 16 GB VPS masih sisa buat nginx, redis, atau app lain.

Keuntungan lain: semua chat tetap di disk kamu—aman GDPR, bebas rate-limit, dan bisa offline. Ollama juga punya REST API kompatibel OpenAI, jadi integrasi ke aplikasi tinggal ganti base_url + api_key random.

Spesifikasi minimum vs nyaman

Minimum: 4 vCPU + 8 GB RAM + 15 GB SSD. Nyaman: 4 vCPU + 16 GB RAM + 50 GB NVMe. Swap 4 GB opsional biar aman pas load tinggi.

Distribusi Linux yang support

Ubuntu ≥20.04, Debian ≥11, CentOS ≥8, Alma ≥9. Intinya kernel ≥5.4 dan systemd aktif. Ollama otomatis download binary static, jadi gak perlu repot compile.

Step-by-Step Install Ollama & DeepSeek R1

Semua command dijalankan sebagai non-root user dengan sudo. Ganti 203.0.113.10 dengan IP publik kamu.

  1. Update sistem dan pasang dependensi:
    sudo apt update && sudo apt install -y curl git python3-venv
  2. Install Ollama (one-liner resmi):
    curl -fsSL https://ollama.com/install.sh | sh
  3. Pastikan service aktif:
    systemctl --user enable --now ollama
    Kalau mau global, tambahkan ke /etc/systemd/system.
  4. Download model DeepSeek R1:7B (±5 GB):
    ollama pull deepseek-r1:7b
    Pilih 1.5b kalau RAM cuma 8 GB.
  5. Install web UI (opsional tapi recommended):
    git clone https://github.com/open-webui/open-webui.git
    cd open-webui
    python3 -m venv venv && source venv/bin/activate
    pip install -r requirements.txt
  6. Jalankan web UI di port 8080:
    OLLAMA_BASE_URL=http://127.0.0.1:11434 nohup python main.py &
  7. Buka firewall:
    sudo ufw allow 8080/tcp
  8. Akses via browser:
    http://203.0.113.10:8080
    Buat akun admin pertama, lalu pilih model DeepSeek di dropdown.

Selesai. Respons pertama butuh ±10 detik karena load model ke RAM; seterusnya 3-5 token/s di CPU EPYC 7443.

Tweaks Produksi: Biar Cepat & Stabil

Tambahkan environment variable di ~/.bashrc:
export OLLAMA_NUM_PARALLEL=2
export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_KEEP_ALIVE=24h

Reload: systemctl --user restart ollama

Pakai reverse proxy (nginx) + SSL gratis Let’s Encrypt:

server {
listen 443 ssl;
server_name ai.mydomain.id;
ssl_certificate /etc/letsencrypt/live/ai.mydomain.id/fullchain.pem;
ssl_certificate_key /etc/letsencrypt/live/ai.mydomain.id/privkey.pem;
location / {
proxy_pass http://127.0.0.1:8080;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}

Enable caching header biar browser hemat bandwidth:

location ~* /(static|assets)/ {
expires 1y; add_header Cache-Control "public, immutable";
}

Kesimpulan

Deploy DeepSeek R1 di VPS cuma butuh 10 menit: install Ollama, pull model, pasang web UI, buka port. Tanpa GPU, tanpa biaya API. Cocok buat internal dev tool, chatbot klien, atau AI coding assistant yang data-nya tetap di server sendiri.

Jangan lupa monitor RAM; kalau spike, turunkan versi model atau tambah swap. Mau integrasi ke Laravel atau Node? Pakai endpoint http://localhost:11434/api/generate dengan JSON sama seperti OpenAI. Langsung coba, dan share benchmark response-nya di forum kesayangan kamu!

FAQ

Apakah perlu GPU untuk jalankan DeepSeek di VPS?

Tidak. DeepSeek R1:7B jalan di CPU multi-core; 16 GB RAM lebih penting daripada GPU.

Berapa bandwidth tiap request chat?

±1-2 MB untuk prompt 500 token, tergantung panjang jawaban. Untuk tim 20 user, 1 TB/bulan cukup.

Bisakah ganti model lain setelah install?

Bisa. Jalankan ollama pull llama3:8b lalu restart open-webui; model baru otomatis muncul di dropdown.

References

Saya Sang Putu Jaya Anggara Putra, seorang digital marketing yang tinggal di Denpasar, Bali. Saya menjalankan Jay.Foll, sebuah panel media sosial yang inovatif, dan juga bekerja sebagai webmaster utama di PT Mousmedia Bali, agensi pemasaran digital yang membantu bisnis tampil lebih baik di dunia digital.