傻瓜 LLM 架設 - Ollama + Open WebUI 之 Docker Compose 懶人包

2024-04-11 10:56 PM

不久前發現不需要 GPU 也能在本機跑 LLM 模型的 llama.cpp，接著如雨後春筍冒出一堆好用地端 LLM 整合平台或工具，例如：可一個指令下載安裝跑 LLM 的 Ollama (延伸閱讀：介紹好用工具：Ollama 快速在本地啟動並執行大型語言模型 by 保哥)，還有為 Ollama 加上 GUI 介面，連指令都不用敲就能架個 LLM 跟你聊天的 Open WebUI(原 Ollama WebUI 改版)。複雜繁瑣的地端 LLM 架設工作簡化到像傻瓜相機一樣簡便，稍具概念便能上手。(小朋友：傻瓜相機是什麼？)

要懶就賴到最高點，裝 Ollama 用 Docker 容器跑比安裝方便，而 Open WebUI 需搭配 Ollama 運行，一次跑兩個容器當然是用 Docker Compose 做成同綁包更省事。

在 Github 找到網友寫的 Docker Compose 版本，但它多跑一個 App 容器放了簡單的 Pynthon 導引網站，對我來說是多餘的。另外，它還在用 Ollama WebUI，也該改成新版 Open WebUI，於是我改寫成以下的 docker-compose.yml：

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - 11434:11434
    volumes:
      - .:/code
      - ./ollama/ollama:/root/.ollama
    container_name: ollama
    pull_policy: always
    tty: true
    restart: always
    networks:
      - ollama-docker

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - ./ollama/open-webui:/app/backend/data
    depends_on:
      - ollama
    ports:
      - 8080:8080
    environment:
      - '/ollama/api=http://ollama:11434/api'
    extra_hosts:
      - host.docker.internal:host-gateway
    restart: unless-stopped
    networks:
      - ollama-docker

networks:
  ollama-docker:
    external: false

註：上述範例是 CPU 版本，若你有 Nvidia 顯卡想用 GPU 加速，可參考專案說明，執行以下程序安裝 CUDA 支援並測試：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

# Configure NVIDIA Container Toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

# Test GPU integration
docker run --gpus all nvidia/cuda:11.5.2-base-ubuntu20.04 nvidia-smi

docker-compose.yml ollama 部分則可修改如下：

  ollama:
    volumes:
      - ./ollama/ollama:/root/.ollama
    container_name: ollama
    pull_policy: always
    tty: true
    restart: unless-stopped
    image: ollama/ollama:latest
    ports:
      - 11434:11434
    networks:
      - ollama-docker
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

準備好 docker-comopse.yml，在有安裝 Docker 的主機執行 docker-compose up -d，容器啟動後下載執行後便可連上 http://localhost:8080/ 進入 Open WebUI。介面需要登入，Sign Up 輸入姓名、Email (隨便敲) 及密碼註冊，第一位註冊的使用者會成為管理者，接著如下圖輸入模型名稱按 Pull <domain-name> from Ollama.com 就會自動下載安裝模型，稍後便可跟它愉快聊天。