Debian12 通过 Ollama 本地安装部署 DeepSeek 与 QWen

以下是在 Debian 12 上通过官方 Ollama 本地部署 DeepSeek 与 QWen（通义千问） 的完整指南。内容涵盖环境准备、安装、拉取模型、运行测试、API 调用及常见问题排查。

📦 一、前置准备

项目	建议配置
系统	Debian 12 (Bookworm) Desktop/Server
内存	≥8GB（7B/8B 模型最低），≥16GB 推荐
磁盘	≥20GB 可用空间（模型文件约 4~14GB/个）
GPU	可选。NVIDIA（需驱动+CUDA）或 AMD ROCm（Ollama ≥0.5+）可加速推理
网络	国内用户建议配置代理，避免拉取模型时超时

# 更新系统 & 安装基础依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl git htop lscpu

🐋 二、安装 Ollama

Ollama 官方提供一键脚本，自动配置 systemd 服务与用户环境。

# 1. 执行官方安装脚本（会自动创建 ollama 用户并启动服务）
curl -fsSL https://ollama.com/install.sh | sh

# 2. 验证安装
ollama --version
# 正常输出示例：ollama version is 0.5.x

# 3. 检查服务状态（可选）
systemctl status ollama

✅ 安装完成后，Ollama 会默认监听 http://localhost:11434，并随系统自动启动。

📥 三、拉取 DeepSeek 与 QWen 模型

Ollama 使用官方仓库命名规范，当前推荐版本如下：

模型	Ollama 名称	说明
DeepSeek-R1	`deepseek-r1:8b`	8B 参数，推理能力强，适合本地部署
QWen2.5	`qwen2.5:7b`	7B 参数，中文理解/生成优秀，指令遵循强

# 拉取 DeepSeek-R1（若网络慢可加代理或换源）
ollama pull deepseek-r1:8b

# 拉取 QWen2.5
ollama pull qwen2.5:7b

# 查看已下载的模型
ollama list

🔍 模型命名可能随官方更新变化，可访问 https://ollama.com/library 实时查询。

🖥️ 四、运行与测试模型

1. CLI 交互模式

# 运行 DeepSeek（进入对话后输入 /bye 退出）
ollama run deepseek-r1:8b

# 运行 QWen2.5
ollama run qwen2.5:7b

2. API 调用（兼容 OpenAI 格式）

Ollama 默认提供 OpenAI-Compatible API，可直接对接第三方工具：

# 后台确保服务运行（通常已自动启动）
ollama serve &

# 测试 DeepSeek（替换 model name 可切换 QWen）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1:8b",
    "messages": [{"role": "user", "content": "用一句话介绍 Debian 操作系统"}]
  }'

3. 推荐 Web UI（可选）

Open WebUI：docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main
Chatbox / LobeChat：支持本地 Ollama 直连，开箱即用。

⚙️ 五、性能优化建议

场景	配置方法
纯 CPU 运行	Ollama 自动使用 llama.cpp，无需额外配置。可加 `OLLAMA_NUM_PARALLEL=2` 提升并发
NVIDIA GPU	安装 `nvidia-driver` + `cuda-toolkit`，Ollama ≥0.5.0 自动识别 CUDA。运行前执行 `nvidia-smi` 确认驱动正常
AMD GPU	安装 ROCm：`sudo apt install rocm-core rocm-dev amdgpu-dkms`，Ollama 会自动启用 ROCm 加速
显存/内存不足	使用更小量化版本：`ollama run deepseek-r1:8b-q4_K_M`（默认已是 Q4，无需手动指定）
限制并发/显存	启动时加参数：`OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_KEEP_ALIVE=5m ollama serve`

🛠️ 六、常见问题排查

问题	解决方案
`pull` 卡住/超时	配置代理：`export https_proxy=http://127.0.0.1:7890`（按实际端口修改）或换用国内镜像源
`CUDA/ROCm not found`	确认 GPU 驱动已正确安装，且 Ollama ≥0.5.0。执行 `ollama list --json` 查看设备识别状态
`OOM Killed` / 响应极慢	关闭浏览器/其他程序，增加 swap：`sudo fallocate -l 4G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile`
服务未自启	`sudo systemctl enable --now ollama`
修改监听地址（局域网访问）	`sudo nano /etc/systemd/system/ollama.service` → 在 `[Service]` 加 `Environment="OLLAMA_HOST=0.0.0.0:11434"` → `systemctl daemon-reload && systemctl restart ollama`

📌 附：快速切换模型指令

# 临时指定模型（不进入交互）
ollama run deepseek-r1:8b "你好，请自我介绍"

# 查看当前可用模型
ollama list

# 删除不需要的模型释放空间
ollama rm qwen2.5:7b

[[利用 Ollama 搭建的本地大模型 Obsidian 搭建个人知识库]]