以下是在 Debian 12 上通过官方 Ollama 本地部署 DeepSeek 与 QWen(通义千问) 的完整指南。内容涵盖环境准备、安装、拉取模型、运行测试、API 调用及常见问题排查。
📦 一、前置准备
| 项目 | 建议配置 |
|---|---|
| 系统 | Debian 12 (Bookworm) Desktop/Server |
| 内存 | ≥8GB(7B/8B 模型最低),≥16GB 推荐 |
| 磁盘 | ≥20GB 可用空间(模型文件约 4~14GB/个) |
| GPU | 可选。NVIDIA(需驱动+CUDA)或 AMD ROCm(Ollama ≥0.5+)可加速推理 |
| 网络 | 国内用户建议配置代理,避免拉取模型时超时 |
# 更新系统 & 安装基础依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl git htop lscpu
🐋 二、安装 Ollama
Ollama 官方提供一键脚本,自动配置 systemd 服务与用户环境。
# 1. 执行官方安装脚本(会自动创建 ollama 用户并启动服务)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 验证安装
ollama --version
# 正常输出示例:ollama version is 0.5.x
# 3. 检查服务状态(可选)
systemctl status ollama
✅ 安装完成后,Ollama 会默认监听
http://localhost:11434,并随系统自动启动。
📥 三、拉取 DeepSeek 与 QWen 模型
Ollama 使用官方仓库命名规范,当前推荐版本如下:
| 模型 | Ollama 名称 | 说明 |
|---|---|---|
| DeepSeek-R1 | deepseek-r1:8b |
8B 参数,推理能力强,适合本地部署 |
| QWen2.5 | qwen2.5:7b |
7B 参数,中文理解/生成优秀,指令遵循强 |
# 拉取 DeepSeek-R1(若网络慢可加代理或换源)
ollama pull deepseek-r1:8b
# 拉取 QWen2.5
ollama pull qwen2.5:7b
# 查看已下载的模型
ollama list
🔍 模型命名可能随官方更新变化,可访问 https://ollama.com/library 实时查询。
🖥️ 四、运行与测试模型
1. CLI 交互模式
# 运行 DeepSeek(进入对话后输入 /bye 退出)
ollama run deepseek-r1:8b
# 运行 QWen2.5
ollama run qwen2.5:7b
2. API 调用(兼容 OpenAI 格式)
Ollama 默认提供 OpenAI-Compatible API,可直接对接第三方工具:
# 后台确保服务运行(通常已自动启动)
ollama serve &
# 测试 DeepSeek(替换 model name 可切换 QWen)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:8b",
"messages": [{"role": "user", "content": "用一句话介绍 Debian 操作系统"}]
}'
3. 推荐 Web UI(可选)
- Open WebUI:
docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main - Chatbox / LobeChat:支持本地 Ollama 直连,开箱即用。
⚙️ 五、性能优化建议
| 场景 | 配置方法 |
|---|---|
| 纯 CPU 运行 | Ollama 自动使用 llama.cpp,无需额外配置。可加 OLLAMA_NUM_PARALLEL=2 提升并发 |
| NVIDIA GPU | 安装 nvidia-driver + cuda-toolkit,Ollama ≥0.5.0 自动识别 CUDA。运行前执行 nvidia-smi 确认驱动正常 |
| AMD GPU | 安装 ROCm:sudo apt install rocm-core rocm-dev amdgpu-dkms,Ollama 会自动启用 ROCm 加速 |
| 显存/内存不足 | 使用更小量化版本:ollama run deepseek-r1:8b-q4_K_M(默认已是 Q4,无需手动指定) |
| 限制并发/显存 | 启动时加参数:OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_KEEP_ALIVE=5m ollama serve |
🛠️ 六、常见问题排查
| 问题 | 解决方案 |
|---|---|
pull 卡住/超时 |
配置代理:export https_proxy=http://127.0.0.1:7890(按实际端口修改)或换用国内镜像源 |
CUDA/ROCm not found |
确认 GPU 驱动已正确安装,且 Ollama ≥0.5.0。执行 ollama list --json 查看设备识别状态 |
OOM Killed / 响应极慢 |
关闭浏览器/其他程序,增加 swap:sudo fallocate -l 4G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile |
| 服务未自启 | sudo systemctl enable --now ollama |
| 修改监听地址(局域网访问) | sudo nano /etc/systemd/system/ollama.service → 在 [Service] 加 Environment="OLLAMA_HOST=0.0.0.0:11434" → systemctl daemon-reload && systemctl restart ollama |
📌 附:快速切换模型指令
# 临时指定模型(不进入交互)
ollama run deepseek-r1:8b "你好,请自我介绍"
# 查看当前可用模型
ollama list
# 删除不需要的模型释放空间
ollama rm qwen2.5:7b
[[利用 Ollama 搭建的本地大模型 Obsidian 搭建个人知识库]]
