本文老唐为大家整理一份 VPS 部署 AI 大模型的完全指南。目前越来越多的朋友开始在自己的 VPS 上跑 AI 大模型,无论是搭建一个私人 ChatGPT、部署 Dify 智能体应用平台,还是用 n8n 做 AI 自动化工作流,第一步都绑不开一个问题:我的 VPS 能跑什么模型?需要什么配置?本文就来系统回答这个问题,同时给出从选配置、选工具到实际部署的完整流程,适合所有想在 VPS 上玩 AI 的朋友参考。
一、VPS 跑 AI 大模型的基本逻辑
先说结论:普通 VPS(无 GPU)可以跑 AI 大模型,但只适合小参数模型,且是 CPU 推理,速度不快。如果你的需求是个人使用、轻量级应用、或者给 AI 应用平台提供后端 API 调用(不在 VPS 本地跑模型),那么普通 VPS 完全够用。
目前在 VPS 上部署 AI 应用主要有两种方式:
方式一:VPS 本地运行模型(CPU 推理)。通过 Ollama 等工具在 VPS 上直接加载和运行开源大模型(如 DeepSeek、Qwen、Llama 等)。优点是完全私有化,数据不出服务器;缺点是没有 GPU 加速,推理速度取决于 CPU 性能和内存大小,只适合跑 1.5B~7B 的小参数模型。
方式二:VPS 部署 AI 应用平台,模型走 API 调用。在 VPS 上部署 Dify、n8n、Open WebUI、OpenClaw 等 AI 应用平台,模型推理交给外部 API(如 DeepSeek API、OpenAI API、智谱 API 等)。VPS 只负责运行平台本身,对配置要求低得多,2C2G 就能起步。这是老唐比较推荐的方式,性价比最高,模型质量也有保障。
当然,这两种方式也可以组合使用:VPS 上同时部署 Ollama 本地小模型 + Dify 平台,简单任务走本地模型(省 API 费用),复杂任务走外部 API(保证质量)。
二、VPS 配置与可运行模型对照表
下面这张表是老唐根据实际测试和社区反馈整理的,方便大家对照自己的 VPS 配置,判断能跑什么。
2.1 本地运行模型(Ollama + CPU 推理)
VPS 上跑模型主要吃内存,CPU 核心数影响推理速度。Ollama 默认使用 INT4 量化模型,内存占用比原始模型小很多。
| 模型参数 | 量化后大小 | 最低内存要求 | 推荐 VPS 配置 | CPU 推理速度参考 | 适用场景 |
|---|---|---|---|---|---|
| 1.5B | ~1.1GB | 2GB | 1C2G | 10-20 tokens/s | 测试流程、简单问答 |
| 3B | ~2.0GB | 4GB | 2C4G | 8-15 tokens/s | 轻量对话、文本分类 |
| 7B | ~4.7GB | 8GB | 2C8G 或 4C8G | 3-8 tokens/s | 个人问答、简单代码生成 |
| 14B | ~9.0GB | 16GB | 4C16G | 1-4 tokens/s | 较慢但质量更好,需耐心等待 |
| 32B+ | 20GB+ | 32GB+ | 不建议普通 VPS | 极慢 | 不推荐,建议用 GPU 服务器 |
几点说明:
- 上表中的“最低内存要求”是指系统可用内存,VPS 还需要预留内存给操作系统和其他服务。比如跑 7B 模型,VPS 至少需要 8GB 内存,实际建议 10GB 以上。
- CPU 推理速度跟 CPU 型号关系很大。同样是 4 核,Intel Xeon E5 老款和 AMD EPYC 新款差距不小。一般来说,新款 CPU 的 AVX2/AVX-512 指令集对推理加速明显。
- 7B 模型(如 DeepSeek-R1:7b、Qwen2.5:7b)是目前 VPS CPU 推理的“甜点”级别,质量尚可,速度勉强能接受。再往上就不太建议了。
- 如果同时还要跑 Open WebUI 或 Dify 等平台,内存需求还要再加 1-2GB。
2.2 部署 AI 应用平台(模型走 API)
如果模型不在本地跑,VPS 只需要承载平台本身,配置要求就低很多了:
| AI 应用平台 | 最低配置 | 推荐配置 | 说明 |
|---|---|---|---|
| Open WebUI | 1C1G | 2C2G | ChatGPT 风格的聊天界面,对接 Ollama 或 API |
| Dify | 2C4G | 4C8G | Docker 部署,含 PostgreSQL、Redis 等组件,吃内存 |
| n8n | 1C2G | 2C4G | 工作流自动化平台,轻量级 |
| OpenClaw | 1C2G | 2C4G | AI 智能体助手,Node.js 运行 |
| Dify + Ollama 7B | 4C16G | 8C16G | 平台 + 本地模型一体化方案 |
三、VPS 选购推荐
根据上面的配置要求,老唐推荐以下几个 VPS 方案,按使用场景分类。
3.1 入门方案:只部署 AI 平台(模型走 API)
如果你只是想部署一个 Dify 或 n8n,模型通过 DeepSeek API 等外部服务调用,那么不需要太高的配置。
推荐搬瓦工 KVM 套餐,$49.99/年起,1C1G 起步,适合部署 Open WebUI、n8n 等轻量平台。如果要跑 Dify,建议选 2C2G 以上的方案。
搬瓦工购买教程:《2026 最新搬瓦工购买教程:新用户注册账户、选择套餐、支付宝付款》
搬瓦工官网:bwh81.net
套餐推荐:
| 方案 | 内存 | CPU | 硬盘 | 流量/月 | 带宽 | 机房 | 价格 | 购买 |
|---|---|---|---|---|---|---|---|---|
| KVM (最便宜) | 1GB | 2核 | 20GB | 1TB | 1Gbps | DC2 AO DC8 ZNET | $49.99/年 | 购买 |
| KVM | 2GB | 3核 | 40GB | 2TB | 1Gbps | $52.99/半年 $99.99/年 | 购买 | |
| CN2 GIA-E (最推荐) | 1GB | 2核 | 20GB | 1TB | 2.5Gbps | DC6 CN2 GIA-E DC9 CN2 GIA 日本软银 JPOS_1 联通荷兰 EUNL_9 | $49.99/季度 $169.99/年 | 购买 |
| CN2 GIA-E | 2GB | 3核 | 40GB | 2TB | 2.5Gbps | $89.99/季度 $299.99/年 | 购买 | |
| HK | 2GB | 2核 | 40GB | 0.5TB | 1Gbps | 中国香港 CN2 GIA | $89.99/月 $899.99/年 | 购买 |
| HK | 4GB | 4核 | 80GB | 1TB | 1Gbps | $155.99/月 $1559.99/年 | 购买 | |
| OSAKA | 2GB | 2核 | 40GB | 0.5TB | 1.5Gbps | 日本大阪 CN2 GIA | $49.99/月 $499.99/年 | 购买 |
| OSAKA | 4GB | 4核 | 80GB | 1TB | 1.5Gbps | $86.99/月 $869.99/年 | 购买 |
搬瓦工优惠码:NODESEEK2026(优惠 6.77%,循环折扣,续费同享)
3.2 进阶方案:VPS 本地跑小模型
如果你想在 VPS 上本地运行 Ollama + 7B 模型,需要至少 8GB 内存。
推荐搬瓦工 CN2 GIA-E 套餐,$169.99/年起,2C1G 起步。不过 1G 内存跑不了模型,需要选择更高配置的方案,或者考虑腾讯云轻量应用服务器的大内存机型。
腾讯云轻量应用服务器目前有 2C4G、4C8G 等配置可选,价格也比较实惠,如果主要目的是跑 AI 模型,腾讯云的性价比可能更高一些。参考《腾讯云轻量应用服务器 Lighthouse 一键部署 OpenClaw 教程》。
3.3 高配方案:本地模型 + AI 平台一体化
如果你想一台 VPS 同时跑 Ollama 本地模型 + Dify/n8n 平台,建议 4C16G 以上配置。这个价位的话,国内云厂商(腾讯云、阿里云)的大内存轻量服务器会更合适。搬瓦工的常规套餐内存普遍偏小,不太适合这个场景。
四、主流 AI 部署工具对比
目前在 VPS 上部署 AI 相关应用,主要用到以下几个工具:
4.1 Ollama —— 模型管理和运行
Ollama 是目前最简单的本地大模型运行框架,一条命令安装,一条命令拉取并运行模型。支持 DeepSeek、Qwen、Llama、Gemma 等主流开源模型,默认使用 INT4 量化,对内存比较友好。
安装:
curl -fsSL https://ollama.com/install.sh | sh
运行模型:
# 拉取并运行 DeepSeek-R1 7B 模型
ollama run deepseek-r1:7b
# 拉取并运行 Qwen2.5 3B 模型(内存小的 VPS 推荐)
ollama run qwen2.5:3b
# 查看已下载的模型
ollama list
# 删除模型
ollama rm deepseek-r1:7b
常用环境变量:
# 允许外部访问(默认只监听 127.0.0.1)
export OLLAMA_HOST=0.0.0.0
# 模型常驻内存,不自动卸载(默认 5 分钟无访问就卸载)
export OLLAMA_KEEP_ALIVE=-1
如果需要永久生效,可以编辑 Ollama 的 systemd 服务文件:
sudo systemctl edit ollama
在 [Service] 段下添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"
然后重启服务:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Ollama 安装完成后默认监听 11434 端口,可以通过 http://你的VPS-IP:11434 访问 API。后续对接 Open WebUI、Dify 等平台时会用到这个地址。
4.2 Open WebUI —— ChatGPT 风格聊天界面
Open WebUI 是一个开源的 LLM Web 界面,类似 ChatGPT 的对话体验,可以对接 Ollama 本地模型,也可以对接 OpenAI 兼容的 API。部署简单,Docker 一条命令搞定。
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
部署完成后访问 http://你的VPS-IP:3000 即可使用,首次访问需要创建管理员账号。
如果 VPS 上已经装了 Ollama,Open WebUI 会自动检测并连接。也可以在设置中手动配置 OpenAI API 等外部模型。
4.3 Dify —— AI 应用开发平台
Dify 是目前最火的开源 LLM 应用开发平台,可以通过可视化界面搭建 AI 聊天机器人、RAG 知识库问答、Agent 智能体、工作流等应用。功能强大,但 Docker 部署的组件比较多(PostgreSQL、Redis、Nginx 等),对内存要求也更高。
# 克隆 Dify 仓库
git clone https://github.com/langgenius/dify.git
cd dify/docker
# 复制环境变量文件
cp .env.example .env
# 启动所有服务
docker compose up -d
部署完成后访问 http://你的VPS-IP 即可。首次访问需要设置管理员账号,然后在”设置 → 模型供应商”中添加模型。可以添加 Ollama 本地模型,也可以添加 DeepSeek API、OpenAI API 等。
关于 Dify 的详细部署教程和 RAG 知识库搭建,老唐后续会单独写一篇文章介绍。参考《2026 搬瓦工 VPS 部署最新 Dify.AI LLM 智能体应用开发平台教程》。
4.4 n8n —— AI 工作流自动化
n8n 是一个开源的工作流自动化平台,可以把各种服务、API、数据库串联起来,再加上 LLM 节点,就能实现 AI 自动化工作流。比如自动抓取新闻 → AI 摘要 → 发送到邮箱/Slack,或者自动处理客户邮件 → AI 分类 → 生成回复等。
docker run -d --name n8n \
-p 5678:5678 \
-v n8n_data:/home/node/.n8n \
--restart always \
n8nio/n8n
部署完成后访问 http://你的VPS-IP:5678。n8n 本身很轻量,1C2G 的 VPS 就能流畅运行,AI 推理部分通过 API 节点调用外部模型即可。
参考《搬瓦工 VPS 部署 n8n:打造你的专属 AI 自动化智能体》。
4.5 工具对比总结
| 工具 | 用途 | VPS 最低配置 | 部署难度 | 适合谁 |
|---|---|---|---|---|
| Ollama | 本地运行大模型 | 2C4G(3B 模型) | 简单 | 想在 VPS 上跑模型的用户 |
| Open WebUI | ChatGPT 风格聊天界面 | 1C1G | 简单 | 想要一个好用的对话界面 |
| Dify | AI 应用开发平台 | 2C4G | 中等 | 想搭建 RAG 知识库、智能体应用 |
| n8n | AI 工作流自动化 | 1C2G | 简单 | 想实现 AI 自动化任务 |
| OpenClaw | AI 智能体助手 | 1C2G | 简单 | 想要一个全能 AI 助手 |
五、快速上手:VPS 部署 Ollama + Open WebUI 实操
下面以搬瓦工 VPS 为例,演示最基本的部署流程:在 VPS 上安装 Ollama + Open WebUI,搭建一个私人 ChatGPT。
5.1 前提条件
- 一台 VPS(建议 2C4G 以上,操作系统选 Ubuntu 22.04 或 24.04)
- 已通过 SSH 连接到 VPS
如果还没有 VPS,可以参考搬瓦工购买教程。如果已有搬瓦工 VPS,在 KiwiVM 后台重装系统选择 Ubuntu 即可。
5.2 安装 Docker
大部分 AI 应用都通过 Docker 部署,先把 Docker 装好:
# 更新系统
apt update && apt upgrade -y
# 安装 Docker
curl -fsSL https://get.docker.com | sh
# 启动 Docker 并设置开机自启
systemctl start docker
systemctl enable docker
# 验证安装
docker --version
5.3 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,拉取一个模型试试。如果你的 VPS 内存在 4GB 以上,可以试试 3B 模型:
ollama run qwen2.5:3b
如果内存在 8GB 以上,可以直接上 7B:
ollama run deepseek-r1:7b
第一次运行会自动下载模型文件,下载完成后会进入对话模式,输入问题即可测试。按 /bye 退出对话。
接下来设置 Ollama 允许外部访问(Open WebUI 需要连接 Ollama):
sudo systemctl edit ollama
添加以下内容:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
重启 Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
5.4 安装 Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
等待镜像下载完成后,访问 http://你的VPS-IP:3000,创建管理员账号,就可以开始对话了。
如果你在 VPS 上装了 Ollama 并拉取了模型,Open WebUI 左上角的模型选择器里应该能看到已下载的模型。选择模型后就可以像用 ChatGPT 一样对话了。
5.5 对接外部 API(可选)
如果你觉得本地模型质量不够好,或者 VPS 配置跑不动大模型,可以在 Open WebUI 中配置外部 API。进入”设置 → 连接”,在 OpenAI API 部分填写:
- API Base URL:
https://api.deepseek.com(以 DeepSeek 为例) - API Key:你的 DeepSeek API Key
保存后就能在模型选择器中看到 DeepSeek 的模型了。其他兼容 OpenAI API 格式的服务(智谱、通义千问等)也是同样的配置方式。
DeepSeek API 的价格非常便宜,个人使用的话一个月可能也就几块钱,比买大内存 VPS 来本地跑模型划算得多。
5.6 安全加固建议
部署完成后,建议做以下安全加固:
- 配置防火墙:只开放必要端口(SSH 22、Web 3000 等),关闭 Ollama 的 11434 端口对外访问。
- 配置反向代理:用 Nginx 或 Caddy 将 Open WebUI 代理到 80/443 端口,并配置 SSL 证书。
- 设置访问密码:Open WebUI 默认有注册功能,建议在管理后台关闭注册,只保留管理员账号。
关于 Nginx 反向代理和 SSL 证书配置,可以参考老唐之前的宝塔面板建站教程。
六、常见问题 FAQ
Q1:VPS 没有 GPU 能跑 AI 大模型吗?
可以。Ollama 支持纯 CPU 推理,只要内存够大就能加载模型。但速度会比 GPU 推理慢很多,7B 模型在普通 VPS 上大概 3-8 tokens/s,打字速度,勉强能用。1.5B-3B 的小模型会快一些。
Q2:跑 7B 模型到底需要多大内存?
Ollama 默认下载 INT4 量化版本,7B 模型文件大约 4.7GB,运行时内存占用约 5-6GB。加上操作系统和其他服务,建议 VPS 至少 8GB 内存。如果还要同时跑 Open WebUI 或 Dify,建议 10GB 以上。
Q3:DeepSeek API 和本地部署 DeepSeek 有什么区别?
DeepSeek API 调用的是官方满血版 671B 参数的模型,质量很高,每百万 tokens 只要几块钱。本地部署的是蒸馏版小模型(1.5B-70B),质量和满血版有差距。如果对回答质量有要求,建议用 API;如果追求隐私或者离线使用,选本地部署。
Q4:Dify 和 Open WebUI 有什么区别?该选哪个?
Open WebUI 主要就是一个聊天界面,类似 ChatGPT 的对话体验,部署简单,资源占用少。Dify 是一个完整的 AI 应用开发平台,除了对话,还支持 RAG 知识库、Agent 智能体、工作流编排等功能,但部署组件多,占用资源也多。如果只是想聊天,用 Open WebUI 就够了;如果想做更复杂的 AI 应用,选 Dify。
Q5:VPS 上的数据安全吗?
比公共 API 安全。你的对话数据存储在自己的 VPS 上,不会被第三方获取。如果用 Ollama 本地模型,整个推理过程都在 VPS 上完成,数据完全不出服务器。如果用外部 API,对话内容会发送到 API 提供商的服务器进行处理。
Q6:已经有搬瓦工 VPS 了,怎么看自己的配置够不够?
登录搬瓦工 KiwiVM 后台,查看 RAM 大小。如果是 1GB 内存,只适合部署 Open WebUI/n8n 等轻量平台,模型走 API。如果是 2GB 以上,可以尝试跑 1.5B 的小模型。8GB 以上才建议跑 7B 模型。
七、总结与后续教程预告
关于 VPS 跑 AI 大模型,老唐的建议是:
- 预算有限:买一台便宜的 VPS(搬瓦工 CN2 套餐 $49.99/年起),部署 Open WebUI 或 Dify,模型用 DeepSeek API。总成本最低,体验最好。
- 想玩本地模型:至少 4C8G 配置,Ollama + 7B 模型是”甜点”组合。
- 企业/团队使用:考虑 GPU 云服务器(腾讯云、阿里云的 GPU 实例),或者自建 GPU 服务器。
后续老唐会继续更新以下教程,感兴趣的朋友可以关注:
- 搬瓦工 VPS 部署 Dify AI 应用平台完整教程
- VPS 部署 n8n + DeepSeek 打造 AI 自动化工作流
- VPS 上 Ollama 模型性能实测对比(DeepSeek vs Qwen vs Llama)
- AI 应用场景下搬瓦工 vs 腾讯云轻量横评
搬瓦工新手入门:《搬瓦工新手入门完全指南:方案推荐、机房选择、优惠码和购买教程》

老唐笔记



![[硬核教程] 2026最火AI Agent:在搬瓦工 VPS 上部署 OpenClaw (原 Clawdbot)-老唐笔记](https://oldtang.com/wp-content/uploads/2026/02/oldtangcom_openclaw-220x150.jpeg)







