很多朋友看完老唐之前的 《VPS 部署 AI 大模型完全指南》 之后,最常问的问题就是:我现在手里这台 VPS,到底能跑什么 AI 应用? 有的朋友手里是搬瓦工 1C1G 的入门套餐,有的是 2C2G 的建站机,有的升级了 4C8G 甚至更高配。配置不同,能跑的 AI 应用差别很大,花冤枉钱升级配置或者买了跑不动都不好。
本文老唐按照 VPS 常见配置分档(2C2G、4C4G、4C8G、8C8G),结合 Ollama 官方数据、社区测试报告以及老唐自己的部署经验,梳理出不同配置下能跑哪些 AI 应用,包括本地模型推理速度、Dify/Open WebUI 等平台的资源占用情况,给出每个配置档位的推荐玩法。
一、数据来源和参考说明
本文的数据主要来自以下渠道:Ollama 官方模型库的文件大小标注、社区用户的实测报告(知乎、博客园、GitHub Issues 等)、Ollama 和 Dify 官方文档的资源要求说明,以及老唐在搬瓦工 VPS 上的实际部署经验。为方便对比,老唐统一了以下参考条件:
| 项目 | 说明 |
|---|---|
| 操作系统 | Ubuntu 24.04 LTS |
| Docker | 最新稳定版 |
| Ollama | 最新版,默认 Q4_K_M 量化模型 |
| 参考模型 | DeepSeek-R1 (1.5B / 7B)、Qwen2.5 (0.5B / 3B / 7B) |
| 内存占用 | 模型加载后的进程 RSS,含 Ollama 运行时和 KV Cache |
| 推理速度 | tokens/s,取多次对话的典型范围 |
需要说明的是,VPS 的 CPU 型号对推理速度影响很大。搬瓦工常用的 Intel Xeon E5 系列和较新的 AMD EPYC 系列之间可能有 30%-50% 的速度差距。另外不同 VPS 厂商的 CPU 频率、缓存大小也不一样,下面的数据仅供参考,实际表现以你自己的 VPS 为准。
二、2C2G:入门配置,AI 平台的起跑线
2 核 CPU、2GB 内存,这是很多朋友手里搬瓦工入门套餐的典型配置,也是腾讯云、阿里云轻量应用服务器的常见低配方案。
2.1 能跑本地模型吗?
基本跑不动。 2GB 内存扣掉操作系统占用(约 300-500MB),可用内存只剩 1.5GB 左右。Ollama 最小的模型 Qwen2.5:0.5b 量化后模型权重只有约 300MB,但加上 Ollama 运行时和 KV Cache 开销,实际内存占用在 500MB 左右。理论上能跑 0.5B 模型,但内存会非常吃紧,容易被系统 OOM Kill(内存不足直接杀进程)。
各模型在 2C2G 下的表现:
| 模型 | 能否加载 | 推理速度 | 内存占用 | 体验 |
|---|---|---|---|---|
| Qwen2.5:0.5b | 能 | ~15 tokens/s | ~500MB | 勉强能聊,回答质量差 |
| DeepSeek-R1:1.5b | 勉强 | ~6 tokens/s | ~1.5GB | 经常 OOM,不稳定 |
| Qwen2.5:3b | 不能 | — | 超出内存 | 加载失败 |
0.5B 的模型回答质量很差,基本只能做做简单的文本分类、格式转换之类的,稍微复杂一点的问题就开始胡说。1.5B 虽然加载了,但几乎吃光了全部可用内存,随时可能崩。
结论:2C2G 不建议跑本地模型。
2.2 能跑哪些 AI 平台?
2C2G 虽然跑不动本地模型,但跑一些轻量级的 AI 平台没问题,只要模型推理交给外部 API。
| AI 平台 | 能否运行 | 内存占用 | 说明 |
|---|---|---|---|
| Open WebUI(单独部署) | 能 | ~400-500MB | 流畅,推荐 |
| n8n | 能 | ~200-400MB | 流畅,推荐 |
| Dify(Docker Compose 全套) | 勉强 | ~1.6-1.8GB | 启动慢,运行时偶尔卡顿 |
Dify 的问题在于它一套 Docker Compose 下来包括 API 服务、Worker、PostgreSQL、Redis、Nginx、Sandbox 好几个容器,吃内存比较凶。2C2G 能启动,但跑起来之后基本没什么余量了,多开几个浏览器标签页就可能卡。如果一定要在 2C2G 上跑 Dify,建议加 1-2GB 的 swap 空间应急。
2.3 2C2G 推荐玩法
- Open WebUI + DeepSeek API(或其他 OpenAI 兼容 API):最佳方案,花几十块钱的 API 费用,体验满血版大模型
- n8n + API:搭建 AI 自动化工作流,处理邮件、内容生成等
- 如果同时还在这台 VPS 上跑网站(WordPress + 宝塔),那就只建议跑 n8n,Open WebUI 都可能有点挤
适合的 VPS 套餐: 搬瓦工 CN2 入门套餐($49.99/年),或者腾讯云轻量 2C2G 方案。
三、4C4G:中配选手,开始有玩头了
4 核 CPU、4GB 内存,这个配置算是 VPS 里的”主流中配”。搬瓦工 CN2 GIA-E 的部分套餐、腾讯云轻量应用服务器的中档方案都在这个区间。
3.1 本地模型测试
4GB 内存终于可以认真跑一下小模型了。
| 模型 | 能否加载 | 推理速度 | 内存占用 | 体验 |
|---|---|---|---|---|
| Qwen2.5:0.5b | 能 | ~18 tokens/s | ~500MB | 流畅,但质量差 |
| DeepSeek-R1:1.5b | 能 | ~10 tokens/s | ~1.5GB | 稳定运行,质量一般 |
| Qwen2.5:3b | 能 | ~5-7 tokens/s | ~2.2GB | 可用,打字速度 |
| DeepSeek-R1:7b | 不能 | — | 超出内存 | 加载失败 |
3B 模型是 4C4G 配置的甜点。Qwen2.5:3b 在这个配置下大约 5-7 tokens/s,差不多就是正常打字的速度,个人用的话体验还行。DeepSeek-R1:1.5b 速度快一些,但推理能力不如 3B。
7B 模型量化后文件约 4.4GB,运行时实际内存占用约 5.2GB(含 KV Cache 和框架开销),4GB 内存的 VPS 完全装不下,加 swap 理论上能跑但会极其缓慢(swap 走磁盘 I/O),没有实用意义。
3.2 AI 平台测试
| AI 平台 | 能否运行 | 内存占用 | 说明 |
|---|---|---|---|
| Open WebUI | 能 | ~400-500MB | 流畅 |
| n8n | 能 | ~300MB | 流畅 |
| Dify | 能 | ~1.6-1.8GB | 基本流畅,比 2C2G 好很多 |
| Ollama (3B) + Open WebUI | 能 | ~3.0GB | 可用,内存占用约 75% |
| Ollama (3B) + Dify | 勉强 | ~3.8-4.0GB | 内存接近上限,需要 swap |
4C4G 跑 Dify 已经比较顺畅了,日常创建应用、对话、搭建 RAG 知识库都没什么问题。但如果想同时在本地跑模型 + Dify,3B 模型加上 Dify 一起差不多把 4GB 吃满,日常使用需要加 swap。
3.3 4C4G 推荐玩法
- 方案 A(推荐):Dify + DeepSeek API。把 4C4G 的资源全部留给 Dify 平台,模型质量走满血 API,体验最好
- 方案 B:Ollama (Qwen2.5:3b) + Open WebUI。本地跑 3B 模型做私人助手,完全离线,数据不出服务器
- 方案 C:n8n + DeepSeek API + Open WebUI。轻量平台组合,同时有对话界面和自动化工作流
适合的 VPS 套餐: 搬瓦工 CN2 GIA-E 中档套餐,或腾讯云轻量 4C4G 方案。
四、4C8G / 8C8G:高配玩家,本地模型真正可用
8GB 内存是一个重要分水岭——7B 模型终于能跑了。4C8G 和 8C8G 的区别主要在 CPU 核心数,对推理速度有一定影响,但内存决定了能不能加载模型这个根本问题。
4.1 本地模型测试
| 模型 | 配置 | 能否加载 | 推理速度 | 内存占用 | 体验 |
|---|---|---|---|---|---|
| Qwen2.5:3b | 4C8G | 能 | ~7 tokens/s | ~2.2GB | 流畅 |
| DeepSeek-R1:7b | 4C8G | 能 | ~3-4 tokens/s | ~5.2GB | 可用,有点慢 |
| Qwen2.5:7b | 4C8G | 能 | ~3-5 tokens/s | ~5.0GB | 可用 |
| DeepSeek-R1:7b | 8C8G | 能 | ~5-7 tokens/s | ~5.2GB | 明显更快 |
| Qwen2.5:7b | 8C8G | 能 | ~5-8 tokens/s | ~5.0GB | 接近打字速度 |
| DeepSeek-R1:14b | 4C8G | 不能 | — | 超出内存 | 加载失败 |
几个关键发现:
- 7B 模型在 8GB VPS 上终于稳定运行了。 模型占用约 5GB 内存,系统还剩 2-3GB,不会动不动 OOM。
- CPU 核心数对速度影响明显。 同样是 7B 模型,8 核比 4 核快了大约 40-60%。如果预算允许,8C8G 比 4C8G 体验好很多。
- 7B 是普通 VPS 的极限了。 14B 模型量化后需要约 9GB 内存,8GB 的 VPS 装不下。想跑 14B 以上需要 16GB 内存的机器。
- DeepSeek-R1:7b 的推理质量比 3B 有质的飞跃。 代码生成、逻辑推理、中文写作都好了一大截,虽然比不上满血版 API,但作为私有部署方案已经相当不错。
4.2 AI 平台测试
| AI 平台组合 | 配置 | 内存占用 | 说明 |
|---|---|---|---|
| Dify + DeepSeek API | 4C8G | ~1.6-1.8GB | 余量充足,非常流畅 |
| Ollama (7B) + Open WebUI | 4C8G | ~5.7-6.0GB | 可用,还剩约 2GB |
| Ollama (7B) + Dify | 4C8G | ~7.0-7.2GB | 能跑但比较紧,建议加 swap |
| Ollama (7B) + Dify | 8C8G | ~7.0-7.2GB | 内存一样紧,但 CPU 余量大 |
| Ollama (7B) + Open WebUI + n8n | 8C8G | ~6.2-6.5GB | 可以,还剩约 1.5GB |
8GB 内存最大的好处是可以同时跑 Ollama 本地模型 + 一个 AI 平台。Ollama 7B + Open WebUI 是最经典的组合,占用约 5.8GB,还有余量。Ollama 7B + Dify 就比较紧张了,建议加 2GB swap 作为缓冲。
4.3 4C8G / 8C8G 推荐玩法
- 方案 A(性价比最高):Ollama (DeepSeek-R1:7b) + Open WebUI。私人 ChatGPT,本地模型质量不错,日常问答、代码辅助、文档处理都够用
- 方案 B(功能最全):Ollama (Qwen2.5:7b) + Dify + swap。本地模型 + AI 应用平台一体化,可以搭建 RAG 知识库、Agent 智能体
- 方案 C(混合方案):Dify + Ollama (3B 本地) + DeepSeek API。简单任务走本地 3B 模型省 API 费用,复杂任务自动切换到 API
适合的 VPS 套餐: 这个配置在搬瓦工常规套餐里不太好找(搬瓦工套餐普遍内存偏小),建议看腾讯云轻量应用服务器的 4C8G 或 8C8G 方案,或者搬瓦工 HONG KONG 机房的高配套餐。
五、各配置档位总结对照表
| 配置 | 本地模型上限 | 推荐 AI 平台 | 典型推理速度 | 适合谁 |
|---|---|---|---|---|
| 1C1G | 不支持 | Open WebUI (API) | — | 只想要个聊天界面 |
| 2C2G | 0.5B 勉强 | Open WebUI / n8n | 0.5B: ~15 t/s | 轻量 AI 平台 + API |
| 4C4G | 3B 稳定 | Dify / Open WebUI / n8n | 3B: ~5-7 t/s | Dify 平台或本地小模型 |
| 4C8G | 7B 稳定 | Ollama + Open WebUI | 7B: ~3-5 t/s | 私有化 AI 部署入门 |
| 8C8G | 7B 流畅 | Ollama + Dify 全家桶 | 7B: ~5-8 t/s | 本地模型 + 平台一体化 |
| 8C16G | 14B 可用 | 随便折腾 | 14B: ~2-4 t/s | 追求更高模型质量 |
关于 VPS 价格: 以上配置对应的月成本因厂商差异很大。搬瓦工主力套餐内存普遍偏小(CN2 GIA-E 入门是 2C1G,$49.99/季),适合 2C2G 以下的轻量方案;4C8G 及以上配置建议考虑腾讯云轻量(国内线路,4C8G 约 ¥100-200/月)或 Contabo、RackNerd 等海外厂商(8C8G 约 $15-30/月),具体可参考老唐后续的 VPS 横评文章。
六、几条实用建议
1. 内存比 CPU 核心数更重要。 在选 VPS 跑 AI 模型的时候,优先看内存。4C8G 比 8C4G 更有用——前者能跑 7B 模型,后者连加载都加载不了。
2. 别忽视 swap 的作用。 即使内存够用,也建议设置 2-4GB 的 swap 空间作为安全网。设置方法:
# 创建 2GB swap 文件
sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
# 永久生效
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
3. API 调用是性价比之王。 除非你对数据隐私有硬性要求,否则”便宜 VPS + DeepSeek API”的组合永远比”贵 VPS + 本地模型”划算。DeepSeek API 百万 tokens 只要几块钱,个人用一个月的 API 费用可能还不到一杯奶茶。
4. 先确认 CPU 型号。 同样标注”4核”的 VPS,Intel Xeon E5-2680(2012 年的老 CPU,主频低、IPC 弱)和 AMD EPYC 7763(Zen 3 架构,IPC 高、缓存大)推理速度可能差一倍。llama.cpp(Ollama 底层推理引擎)对 AVX2 指令集有优化,较新的 CPU 通常支持更多 SIMD 指令,推理更快。买之前可以先开一台最低配的试试 CPU 型号(lscpu 命令查看),不合适就退。
5. 如果只想试试效果,先用 1.5B 模型。 DeepSeek-R1:1.5b 需要约 1.5GB 内存,4C4G 的 VPS 就能稳定跑,先体验一下部署流程,再决定要不要升级配置跑 7B。2C2G 也能勉强加载,但内存会很紧张,不推荐长期使用。
七、常见问题
Q:我的搬瓦工是 CN2 GIA-E 最低配(2C1G),能跑 AI 吗?
1GB 内存太小了,装个 Ollama 不加载模型就占 100 多 MB,加上系统本身的占用,基本没有空间给模型。建议只部署 Open WebUI 或 n8n 这种轻量平台,模型走 API。或者考虑升级到更高配置的套餐。
Q:VPS 部署 DeepSeek 模型需要多大内存?
看你要跑多大的模型。Ollama 默认使用 Q4_K_M 量化版本,模型文件大小和运行时内存占用是两回事(运行时因 KV Cache 和框架开销会比文件更大)。DeepSeek-R1:1.5b 运行时约需 1.5GB 内存,7b 约需 5.2GB,14b 约需 9-10GB。加上系统和其他服务的开销,建议分别对应 4GB、8GB、16GB 以上的 VPS。
Q:4C4G 跑 Dify 够不够?
只跑 Dify 平台(模型走 API)是够的,Dify 全套 Docker 容器大约占 1.6-1.8GB 内存,4GB 还有余量。但如果想在同一台机器上同时跑 Dify + Ollama 本地模型,那 4GB 内存只够跑 3B 以下的小模型,而且会比较紧张。
Q:CPU 推理 3-5 tokens/s 是什么体验?
大概就是看着字一个一个往外蹦,比正常打字慢一些。问一个简单问题,等 10-20 秒能看到完整回复。问一个复杂问题可能要等 30 秒到 1 分钟。个人用的话勉强能接受,但如果习惯了 ChatGPT 的秒回速度,会觉得有点煎熬。
Q:跑 AI 模型会不会影响 VPS 上其他服务?
会。Ollama 加载模型后会占用大量内存,CPU 推理时也会占满 CPU 资源。如果你的 VPS 上还跑着网站、数据库之类的服务,建议在 Ollama 的环境变量里设置 OLLAMA_KEEP_ALIVE=5m(5 分钟无访问自动卸载模型),避免模型常驻内存影响其他服务。或者干脆用两台 VPS,一台跑网站,一台跑 AI。
八、下一步
根据你的配置档位,可以继续看老唐的对应教程:
- 所有配置通用:《VPS 部署 AI 大模型完全指南:从选配置到跑起来》
- 2C2G – 4C4G:后续会更新《VPS 部署 n8n + DeepSeek 打造 AI 自动化工作流》
- 4C8G 以上:《搬瓦工 VPS 部署 Ollama + Open WebUI:搭建私人 ChatGPT》
下面是搬瓦工最新购买教程。
下面是目前搬瓦工推荐方案。
| 方案 | 内存 | CPU | 硬盘 | 流量/月 | 带宽 | 机房 | 价格 | 购买 |
|---|---|---|---|---|---|---|---|---|
| KVM (最便宜) | 1GB | 2核 | 20GB | 1TB | 1Gbps | DC2 AO DC8 ZNET | $49.99/年 | 购买 |
| KVM | 2GB | 3核 | 40GB | 2TB | 1Gbps | $52.99/半年 $99.99/年 | 购买 | |
| CN2 GIA-E (最推荐) | 1GB | 2核 | 20GB | 1TB | 2.5Gbps | DC6 CN2 GIA-E DC9 CN2 GIA 日本软银 JPOS_1 联通荷兰 EUNL_9 | $49.99/季度 $169.99/年 | 购买 |
| CN2 GIA-E | 2GB | 3核 | 40GB | 2TB | 2.5Gbps | $89.99/季度 $299.99/年 | 购买 | |
| HK | 2GB | 2核 | 40GB | 0.5TB | 1Gbps | 中国香港 CN2 GIA | $89.99/月 $899.99/年 | 购买 |
| HK | 4GB | 4核 | 80GB | 1TB | 1Gbps | $155.99/月 $1559.99/年 | 购买 | |
| OSAKA | 2GB | 2核 | 40GB | 0.5TB | 1.5Gbps | 日本大阪 CN2 GIA | $49.99/月 $499.99/年 | 购买 |
| OSAKA | 4GB | 4核 | 80GB | 1TB | 1.5Gbps | $86.99/月 $869.99/年 | 购买 |

老唐笔记


![[硬核教程] 2026最火AI Agent:在搬瓦工 VPS 上部署 OpenClaw (原 Clawdbot)-老唐笔记](https://oldtang.com/wp-content/uploads/2026/02/oldtangcom_openclaw-220x150.jpeg)








