Dynadot 搬瓦工 腾讯云

2026 VPS 部署 AI 大模型完全指南:从选配置到跑起来

Sider GigsGigsCloud

本文老唐为大家整理一份 VPS 部署 AI 大模型的完全指南。目前越来越多的朋友开始在自己的 VPS 上跑 AI 大模型,无论是搭建一个私人 ChatGPT、部署 Dify 智能体应用平台,还是用 n8n 做 AI 自动化工作流,第一步都绑不开一个问题:我的 VPS 能跑什么模型?需要什么配置?本文就来系统回答这个问题,同时给出从选配置、选工具到实际部署的完整流程,适合所有想在 VPS 上玩 AI 的朋友参考。

一、VPS 跑 AI 大模型的基本逻辑

先说结论:普通 VPS(无 GPU)可以跑 AI 大模型,但只适合小参数模型,且是 CPU 推理,速度不快。如果你的需求是个人使用、轻量级应用、或者给 AI 应用平台提供后端 API 调用(不在 VPS 本地跑模型),那么普通 VPS 完全够用。

目前在 VPS 上部署 AI 应用主要有两种方式:

方式一:VPS 本地运行模型(CPU 推理)。通过 Ollama 等工具在 VPS 上直接加载和运行开源大模型(如 DeepSeek、Qwen、Llama 等)。优点是完全私有化,数据不出服务器;缺点是没有 GPU 加速,推理速度取决于 CPU 性能和内存大小,只适合跑 1.5B~7B 的小参数模型。

方式二:VPS 部署 AI 应用平台,模型走 API 调用。在 VPS 上部署 Dify、n8n、Open WebUI、OpenClaw 等 AI 应用平台,模型推理交给外部 API(如 DeepSeek API、OpenAI API、智谱 API 等)。VPS 只负责运行平台本身,对配置要求低得多,2C2G 就能起步。这是老唐比较推荐的方式,性价比最高,模型质量也有保障。

当然,这两种方式也可以组合使用:VPS 上同时部署 Ollama 本地小模型 + Dify 平台,简单任务走本地模型(省 API 费用),复杂任务走外部 API(保证质量)。

二、VPS 配置与可运行模型对照表

下面这张表是老唐根据实际测试和社区反馈整理的,方便大家对照自己的 VPS 配置,判断能跑什么。

2.1 本地运行模型(Ollama + CPU 推理)

VPS 上跑模型主要吃内存,CPU 核心数影响推理速度。Ollama 默认使用 INT4 量化模型,内存占用比原始模型小很多。

模型参数 量化后大小 最低内存要求 推荐 VPS 配置 CPU 推理速度参考 适用场景
1.5B ~1.1GB 2GB 1C2G 10-20 tokens/s 测试流程、简单问答
3B ~2.0GB 4GB 2C4G 8-15 tokens/s 轻量对话、文本分类
7B ~4.7GB 8GB 2C8G 或 4C8G 3-8 tokens/s 个人问答、简单代码生成
14B ~9.0GB 16GB 4C16G 1-4 tokens/s 较慢但质量更好,需耐心等待
32B+ 20GB+ 32GB+ 不建议普通 VPS 极慢 不推荐,建议用 GPU 服务器

几点说明:

  1. 上表中的“最低内存要求”是指系统可用内存,VPS 还需要预留内存给操作系统和其他服务。比如跑 7B 模型,VPS 至少需要 8GB 内存,实际建议 10GB 以上。
  2. CPU 推理速度跟 CPU 型号关系很大。同样是 4 核,Intel Xeon E5 老款和 AMD EPYC 新款差距不小。一般来说,新款 CPU 的 AVX2/AVX-512 指令集对推理加速明显。
  3. 7B 模型(如 DeepSeek-R1:7b、Qwen2.5:7b)是目前 VPS CPU 推理的“甜点”级别,质量尚可,速度勉强能接受。再往上就不太建议了。
  4. 如果同时还要跑 Open WebUI 或 Dify 等平台,内存需求还要再加 1-2GB。

2.2 部署 AI 应用平台(模型走 API)

如果模型不在本地跑,VPS 只需要承载平台本身,配置要求就低很多了:

AI 应用平台 最低配置 推荐配置 说明
Open WebUI 1C1G 2C2G ChatGPT 风格的聊天界面,对接 Ollama 或 API
Dify 2C4G 4C8G Docker 部署,含 PostgreSQL、Redis 等组件,吃内存
n8n 1C2G 2C4G 工作流自动化平台,轻量级
OpenClaw 1C2G 2C4G AI 智能体助手,Node.js 运行
Dify + Ollama 7B 4C16G 8C16G 平台 + 本地模型一体化方案

三、VPS 选购推荐

根据上面的配置要求,老唐推荐以下几个 VPS 方案,按使用场景分类。

3.1 入门方案:只部署 AI 平台(模型走 API)

如果你只是想部署一个 Dify 或 n8n,模型通过 DeepSeek API 等外部服务调用,那么不需要太高的配置。

推荐搬瓦工 KVM 套餐,$49.99/年起,1C1G 起步,适合部署 Open WebUI、n8n 等轻量平台。如果要跑 Dify,建议选 2C2G 以上的方案。

搬瓦工购买教程:《2026 最新搬瓦工购买教程:新用户注册账户、选择套餐、支付宝付款》

搬瓦工官网:bwh81.net

套餐推荐:

方案内存CPU硬盘流量/月带宽机房价格购买
KVM
(最便宜)
1GB2核20GB1TB1GbpsDC2 AO
DC8 ZNET
$49.99/年购买
KVM2GB3核40GB2TB1Gbps$52.99/半年
$99.99/年
购买
CN2 GIA-E
(最推荐)
1GB2核20GB1TB2.5GbpsDC6 CN2 GIA-E
DC9 CN2 GIA
日本软银 JPOS_1
联通荷兰 EUNL_9
$49.99/季度
$169.99/年
购买
CN2 GIA-E2GB3核40GB2TB2.5Gbps$89.99/季度
$299.99/年
购买
HK2GB2核40GB0.5TB1Gbps中国香港 CN2 GIA$89.99/月
$899.99/年
购买
HK4GB4核80GB1TB1Gbps$155.99/月
$1559.99/年
购买
OSAKA2GB2核40GB0.5TB1.5Gbps日本大阪 CN2 GIA$49.99/月
$499.99/年
购买
OSAKA4GB4核80GB1TB1.5Gbps$86.99/月
$869.99/年
购买

搬瓦工优惠码:NODESEEK2026(优惠 6.77%,循环折扣,续费同享)

3.2 进阶方案:VPS 本地跑小模型

如果你想在 VPS 上本地运行 Ollama + 7B 模型,需要至少 8GB 内存。

推荐搬瓦工 CN2 GIA-E 套餐,$169.99/年起,2C1G 起步。不过 1G 内存跑不了模型,需要选择更高配置的方案,或者考虑腾讯云轻量应用服务器的大内存机型。

腾讯云轻量应用服务器目前有 2C4G、4C8G 等配置可选,价格也比较实惠,如果主要目的是跑 AI 模型,腾讯云的性价比可能更高一些。参考《腾讯云轻量应用服务器 Lighthouse 一键部署 OpenClaw 教程》。

3.3 高配方案:本地模型 + AI 平台一体化

如果你想一台 VPS 同时跑 Ollama 本地模型 + Dify/n8n 平台,建议 4C16G 以上配置。这个价位的话,国内云厂商(腾讯云、阿里云)的大内存轻量服务器会更合适。搬瓦工的常规套餐内存普遍偏小,不太适合这个场景。

四、主流 AI 部署工具对比

目前在 VPS 上部署 AI 相关应用,主要用到以下几个工具:

4.1 Ollama —— 模型管理和运行

Ollama 是目前最简单的本地大模型运行框架,一条命令安装,一条命令拉取并运行模型。支持 DeepSeek、Qwen、Llama、Gemma 等主流开源模型,默认使用 INT4 量化,对内存比较友好。

安装:

curl -fsSL https://ollama.com/install.sh | sh

运行模型:

# 拉取并运行 DeepSeek-R1 7B 模型
ollama run deepseek-r1:7b

# 拉取并运行 Qwen2.5 3B 模型(内存小的 VPS 推荐)
ollama run qwen2.5:3b

# 查看已下载的模型
ollama list

# 删除模型
ollama rm deepseek-r1:7b

常用环境变量:

# 允许外部访问(默认只监听 127.0.0.1)
export OLLAMA_HOST=0.0.0.0

# 模型常驻内存,不自动卸载(默认 5 分钟无访问就卸载)
export OLLAMA_KEEP_ALIVE=-1

如果需要永久生效,可以编辑 Ollama 的 systemd 服务文件:

sudo systemctl edit ollama

[Service] 段下添加:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=-1"

然后重启服务:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Ollama 安装完成后默认监听 11434 端口,可以通过 http://你的VPS-IP:11434 访问 API。后续对接 Open WebUI、Dify 等平台时会用到这个地址。

4.2 Open WebUI —— ChatGPT 风格聊天界面

Open WebUI 是一个开源的 LLM Web 界面,类似 ChatGPT 的对话体验,可以对接 Ollama 本地模型,也可以对接 OpenAI 兼容的 API。部署简单,Docker 一条命令搞定。

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

部署完成后访问 http://你的VPS-IP:3000 即可使用,首次访问需要创建管理员账号。

如果 VPS 上已经装了 Ollama,Open WebUI 会自动检测并连接。也可以在设置中手动配置 OpenAI API 等外部模型。

4.3 Dify —— AI 应用开发平台

Dify 是目前最火的开源 LLM 应用开发平台,可以通过可视化界面搭建 AI 聊天机器人、RAG 知识库问答、Agent 智能体、工作流等应用。功能强大,但 Docker 部署的组件比较多(PostgreSQL、Redis、Nginx 等),对内存要求也更高。

# 克隆 Dify 仓库
git clone https://github.com/langgenius/dify.git
cd dify/docker

# 复制环境变量文件
cp .env.example .env

# 启动所有服务
docker compose up -d

部署完成后访问 http://你的VPS-IP 即可。首次访问需要设置管理员账号,然后在”设置 → 模型供应商”中添加模型。可以添加 Ollama 本地模型,也可以添加 DeepSeek API、OpenAI API 等。

关于 Dify 的详细部署教程和 RAG 知识库搭建,老唐后续会单独写一篇文章介绍。参考《2026 搬瓦工 VPS 部署最新 Dify.AI LLM 智能体应用开发平台教程》。

4.4 n8n —— AI 工作流自动化

n8n 是一个开源的工作流自动化平台,可以把各种服务、API、数据库串联起来,再加上 LLM 节点,就能实现 AI 自动化工作流。比如自动抓取新闻 → AI 摘要 → 发送到邮箱/Slack,或者自动处理客户邮件 → AI 分类 → 生成回复等。

docker run -d --name n8n \
  -p 5678:5678 \
  -v n8n_data:/home/node/.n8n \
  --restart always \
  n8nio/n8n

部署完成后访问 http://你的VPS-IP:5678。n8n 本身很轻量,1C2G 的 VPS 就能流畅运行,AI 推理部分通过 API 节点调用外部模型即可。

参考《搬瓦工 VPS 部署 n8n:打造你的专属 AI 自动化智能体》。

4.5 工具对比总结

工具 用途 VPS 最低配置 部署难度 适合谁
Ollama 本地运行大模型 2C4G(3B 模型) 简单 想在 VPS 上跑模型的用户
Open WebUI ChatGPT 风格聊天界面 1C1G 简单 想要一个好用的对话界面
Dify AI 应用开发平台 2C4G 中等 想搭建 RAG 知识库、智能体应用
n8n AI 工作流自动化 1C2G 简单 想实现 AI 自动化任务
OpenClaw AI 智能体助手 1C2G 简单 想要一个全能 AI 助手

五、快速上手:VPS 部署 Ollama + Open WebUI 实操

下面以搬瓦工 VPS 为例,演示最基本的部署流程:在 VPS 上安装 Ollama + Open WebUI,搭建一个私人 ChatGPT。

5.1 前提条件

  • 一台 VPS(建议 2C4G 以上,操作系统选 Ubuntu 22.04 或 24.04)
  • 已通过 SSH 连接到 VPS

如果还没有 VPS,可以参考搬瓦工购买教程。如果已有搬瓦工 VPS,在 KiwiVM 后台重装系统选择 Ubuntu 即可。

5.2 安装 Docker

大部分 AI 应用都通过 Docker 部署,先把 Docker 装好:

# 更新系统
apt update && apt upgrade -y

# 安装 Docker
curl -fsSL https://get.docker.com | sh

# 启动 Docker 并设置开机自启
systemctl start docker
systemctl enable docker

# 验证安装
docker --version

5.3 安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,拉取一个模型试试。如果你的 VPS 内存在 4GB 以上,可以试试 3B 模型:

ollama run qwen2.5:3b

如果内存在 8GB 以上,可以直接上 7B:

ollama run deepseek-r1:7b

第一次运行会自动下载模型文件,下载完成后会进入对话模式,输入问题即可测试。按 /bye 退出对话。

接下来设置 Ollama 允许外部访问(Open WebUI 需要连接 Ollama):

sudo systemctl edit ollama

添加以下内容:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

重启 Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

5.4 安装 Open WebUI

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

等待镜像下载完成后,访问 http://你的VPS-IP:3000,创建管理员账号,就可以开始对话了。

如果你在 VPS 上装了 Ollama 并拉取了模型,Open WebUI 左上角的模型选择器里应该能看到已下载的模型。选择模型后就可以像用 ChatGPT 一样对话了。

5.5 对接外部 API(可选)

如果你觉得本地模型质量不够好,或者 VPS 配置跑不动大模型,可以在 Open WebUI 中配置外部 API。进入”设置 → 连接”,在 OpenAI API 部分填写:

  • API Base URL:https://api.deepseek.com(以 DeepSeek 为例)
  • API Key:你的 DeepSeek API Key

保存后就能在模型选择器中看到 DeepSeek 的模型了。其他兼容 OpenAI API 格式的服务(智谱、通义千问等)也是同样的配置方式。

DeepSeek API 的价格非常便宜,个人使用的话一个月可能也就几块钱,比买大内存 VPS 来本地跑模型划算得多。

5.6 安全加固建议

部署完成后,建议做以下安全加固:

  1. 配置防火墙:只开放必要端口(SSH 22、Web 3000 等),关闭 Ollama 的 11434 端口对外访问。
  2. 配置反向代理:用 Nginx 或 Caddy 将 Open WebUI 代理到 80/443 端口,并配置 SSL 证书。
  3. 设置访问密码:Open WebUI 默认有注册功能,建议在管理后台关闭注册,只保留管理员账号。

关于 Nginx 反向代理和 SSL 证书配置,可以参考老唐之前的宝塔面板建站教程。

六、常见问题 FAQ

Q1:VPS 没有 GPU 能跑 AI 大模型吗?

可以。Ollama 支持纯 CPU 推理,只要内存够大就能加载模型。但速度会比 GPU 推理慢很多,7B 模型在普通 VPS 上大概 3-8 tokens/s,打字速度,勉强能用。1.5B-3B 的小模型会快一些。

Q2:跑 7B 模型到底需要多大内存?

Ollama 默认下载 INT4 量化版本,7B 模型文件大约 4.7GB,运行时内存占用约 5-6GB。加上操作系统和其他服务,建议 VPS 至少 8GB 内存。如果还要同时跑 Open WebUI 或 Dify,建议 10GB 以上。

Q3:DeepSeek API 和本地部署 DeepSeek 有什么区别?

DeepSeek API 调用的是官方满血版 671B 参数的模型,质量很高,每百万 tokens 只要几块钱。本地部署的是蒸馏版小模型(1.5B-70B),质量和满血版有差距。如果对回答质量有要求,建议用 API;如果追求隐私或者离线使用,选本地部署。

Q4:Dify 和 Open WebUI 有什么区别?该选哪个?

Open WebUI 主要就是一个聊天界面,类似 ChatGPT 的对话体验,部署简单,资源占用少。Dify 是一个完整的 AI 应用开发平台,除了对话,还支持 RAG 知识库、Agent 智能体、工作流编排等功能,但部署组件多,占用资源也多。如果只是想聊天,用 Open WebUI 就够了;如果想做更复杂的 AI 应用,选 Dify。

Q5:VPS 上的数据安全吗?

比公共 API 安全。你的对话数据存储在自己的 VPS 上,不会被第三方获取。如果用 Ollama 本地模型,整个推理过程都在 VPS 上完成,数据完全不出服务器。如果用外部 API,对话内容会发送到 API 提供商的服务器进行处理。

Q6:已经有搬瓦工 VPS 了,怎么看自己的配置够不够?

登录搬瓦工 KiwiVM 后台,查看 RAM 大小。如果是 1GB 内存,只适合部署 Open WebUI/n8n 等轻量平台,模型走 API。如果是 2GB 以上,可以尝试跑 1.5B 的小模型。8GB 以上才建议跑 7B 模型。

七、总结与后续教程预告

关于 VPS 跑 AI 大模型,老唐的建议是:

  1. 预算有限:买一台便宜的 VPS(搬瓦工 CN2 套餐 $49.99/年起),部署 Open WebUI 或 Dify,模型用 DeepSeek API。总成本最低,体验最好。
  2. 想玩本地模型:至少 4C8G 配置,Ollama + 7B 模型是”甜点”组合。
  3. 企业/团队使用:考虑 GPU 云服务器(腾讯云、阿里云的 GPU 实例),或者自建 GPU 服务器。

后续老唐会继续更新以下教程,感兴趣的朋友可以关注:

  • 搬瓦工 VPS 部署 Dify AI 应用平台完整教程
  • VPS 部署 n8n + DeepSeek 打造 AI 自动化工作流
  • VPS 上 Ollama 模型性能实测对比(DeepSeek vs Qwen vs Llama)
  • AI 应用场景下搬瓦工 vs 腾讯云轻量横评

搬瓦工新手入门:《搬瓦工新手入门完全指南:方案推荐、机房选择、优惠码和购买教程》

搬瓦工购买教程:《2026 最新搬瓦工购买教程:新用户注册账户、选择套餐、支付宝付款》

Dynadot Hostwinds
赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《2026 VPS 部署 AI 大模型完全指南:从选配置到跑起来
文章链接:https://oldtang.com/14593.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。