智能

Debian12 通过 Ollama 本地安装部署 DeepSeek 与 QWen

波比AI · 6月23日 · 2026年 · · 本文共2357个字 · 预计阅读8分钟 3次已读

以下是在 Debian 12 上通过官方 Ollama 本地部署 DeepSeekQWen(通义千问) 的完整指南。内容涵盖环境准备、安装、拉取模型、运行测试、API 调用及常见问题排查。


📦 一、前置准备

项目 建议配置
系统 Debian 12 (Bookworm) Desktop/Server
内存 ≥8GB(7B/8B 模型最低),≥16GB 推荐
磁盘 ≥20GB 可用空间(模型文件约 4~14GB/个)
GPU 可选。NVIDIA(需驱动+CUDA)或 AMD ROCm(Ollama ≥0.5+)可加速推理
网络 国内用户建议配置代理,避免拉取模型时超时
# 更新系统 & 安装基础依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl git htop lscpu

🐋 二、安装 Ollama

Ollama 官方提供一键脚本,自动配置 systemd 服务与用户环境。

# 1. 执行官方安装脚本(会自动创建 ollama 用户并启动服务)
curl -fsSL https://ollama.com/install.sh | sh

# 2. 验证安装
ollama --version
# 正常输出示例:ollama version is 0.5.x

# 3. 检查服务状态(可选)
systemctl status ollama

✅ 安装完成后,Ollama 会默认监听 http://localhost:11434,并随系统自动启动。


📥 三、拉取 DeepSeek 与 QWen 模型

Ollama 使用官方仓库命名规范,当前推荐版本如下:

模型 Ollama 名称 说明
DeepSeek-R1 deepseek-r1:8b 8B 参数,推理能力强,适合本地部署
QWen2.5 qwen2.5:7b 7B 参数,中文理解/生成优秀,指令遵循强
# 拉取 DeepSeek-R1(若网络慢可加代理或换源)
ollama pull deepseek-r1:8b

# 拉取 QWen2.5
ollama pull qwen2.5:7b

# 查看已下载的模型
ollama list

🔍 模型命名可能随官方更新变化,可访问 https://ollama.com/library 实时查询。


🖥️ 四、运行与测试模型

1. CLI 交互模式

# 运行 DeepSeek(进入对话后输入 /bye 退出)
ollama run deepseek-r1:8b

# 运行 QWen2.5
ollama run qwen2.5:7b

2. API 调用(兼容 OpenAI 格式)

Ollama 默认提供 OpenAI-Compatible API,可直接对接第三方工具:

# 后台确保服务运行(通常已自动启动)
ollama serve &

# 测试 DeepSeek(替换 model name 可切换 QWen)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1:8b",
    "messages": [{"role": "user", "content": "用一句话介绍 Debian 操作系统"}]
  }'

3. 推荐 Web UI(可选)

  • Open WebUIdocker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main
  • Chatbox / LobeChat:支持本地 Ollama 直连,开箱即用。

⚙️ 五、性能优化建议

场景 配置方法
纯 CPU 运行 Ollama 自动使用 llama.cpp,无需额外配置。可加 OLLAMA_NUM_PARALLEL=2 提升并发
NVIDIA GPU 安装 nvidia-driver + cuda-toolkit,Ollama ≥0.5.0 自动识别 CUDA。运行前执行 nvidia-smi 确认驱动正常
AMD GPU 安装 ROCm:sudo apt install rocm-core rocm-dev amdgpu-dkms,Ollama 会自动启用 ROCm 加速
显存/内存不足 使用更小量化版本:ollama run deepseek-r1:8b-q4_K_M(默认已是 Q4,无需手动指定)
限制并发/显存 启动时加参数:OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_KEEP_ALIVE=5m ollama serve

🛠️ 六、常见问题排查

问题 解决方案
pull 卡住/超时 配置代理:export https_proxy=http://127.0.0.1:7890(按实际端口修改)或换用国内镜像源
CUDA/ROCm not found 确认 GPU 驱动已正确安装,且 Ollama ≥0.5.0。执行 ollama list --json 查看设备识别状态
OOM Killed / 响应极慢 关闭浏览器/其他程序,增加 swap:sudo fallocate -l 4G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile
服务未自启 sudo systemctl enable --now ollama
修改监听地址(局域网访问) sudo nano /etc/systemd/system/ollama.service → 在 [Service]Environment="OLLAMA_HOST=0.0.0.0:11434"systemctl daemon-reload && systemctl restart ollama

📌 附:快速切换模型指令

# 临时指定模型(不进入交互)
ollama run deepseek-r1:8b "你好,请自我介绍"

# 查看当前可用模型
ollama list

# 删除不需要的模型释放空间
ollama rm qwen2.5:7b

[[利用 Ollama 搭建的本地大模型 Obsidian 搭建个人知识库]]

相关文章
暂无相关文章!
0 条回应