如何在 Kubernetes 中部署 DeepSeek R1 大模型-老唐笔记

随着 DeepSeek R1 的爆火以及 DeepSeek 平台的“服务器繁忙”不可用问题，很多人开始尝试在本地部署大模型。不过，并不是每个人都有高性能 GPU，这样即便把蒸馏后的小模型跑起来了，效果跟 DeepSeek 官方版本也会有很大差别（尤其是 10B 以下的版本）。

相较于本地部署，Kubernetes 作为新一代基础架构平台，不仅具备原生高效的资源调度与自动扩展能力，还能轻松实现跨区域、多模型的管理，是部署 DeepSeek R1 等大模型的理想选择。

文章目录 隐藏

为什么选择 Kubernetes 平台？

在面对大模型部署时，本地环境往往资源不足、维护繁琐，而 Kubernetes 则提供了一整套现代化解决方案，其核心优势包括：

原生高效调度
Kubernetes 拥有自动弹性伸缩功能，能够根据任务负载灵活分配 GPU 和 CPU 资源，突破本地硬件瓶颈，确保大模型始终在最佳状态下运行。
完善的安全机制
通过声明式配置和网络策略，实现细粒度的访问控制和服务隔离；结合云平台加密传输与存储措施，构建全链路数据安全闭环。
灵活扩展与便捷管理
丰富的生态系统支持多模型共存、滚动升级和版本回滚；配合 CI/CD 工具，实现自动化部署与持续优化，无论跨区域部署或应对业务高峰都得心应手。

在动手部署 DeepSeek R1 之前，首先需要一个 Kubernetes 集群：

创建 Kubernetes 集群
在 AWS、Azure 或其他云平台上创建一个支持 GPU 的 Kubernetes 集群。GPU 节点是大模型高性能运行的关键，务必参考官方配置指南确保资源充足。
配置 kubectl
下载并正确配置 kubectl 命令行，将其指向新建的集群，以便顺利执行后续命令和管理集群资源。
安装 Helm
Helm 是 Kubernetes 上的包管理工具，能够大幅简化应用部署与版本管理。请根据官方文档安装合适版本，并验证其与集群的兼容性。

接下来，就可以通过 Helm 来部署大模型了。下面的例子通过 Ollama 来运行大模型，并集成了 Open WebUI 作为前端界面。

添加 Helm 仓库将 Ollama Kubernetes 所在的 Helm 仓库添加到本地配置中：
```
helm repo add ollama https://feisky.xyz/ollama-kubernetes
helm repo update
```
安装或升级部署执行下面的命令完成 Ollama Kubernetes 的安装或版本升级：
```
 helm upgrade --install ollama ollama/ollama \
   --namespace=ollama \
   --create-namespace
```
如果指定的命名空间不存在，命令会自动创建；如已存在，则直接升级。你也可以通过 --set 参数调整副本数、资源限制等配置，以满足不同业务需求。
开启服务端口转发部署完成后，为方便调试和访问，使用以下命令将集群内服务映射到本地：
```
kubectl -n ollama port-forward service/ollama-webui 8080:80
```
此时，打开浏览器访问 http://localhost:8080，创建账户后就可以可以开始使用了。

部署只是第一步，后续的运维和优化同样关键。以下几点建议可供参考：

资源规划与调度
建议为 DeepSeek R1 专门预留 GPU 节点，并利用 Kubernetes 的 ResourceQuota 与 Taints/Tolerations 策略，确保关键服务获得充足资源。
配置集中管理
采用 ConfigMap 与 Secret 统一管理各环境配置，既能降低配置错误风险，也便于版本控制和快速回滚。
自动化与监控
集成 Prometheus、Grafana 等监控工具，对集群和应用性能进行实时监控；同时，利用 CI/CD 工具实现代码更新后的自动部署，确保系统持续高效稳定运行。
安全加固
配合 Kubernetes 内置的 NetworkPolicy 及云平台安全组策略，对内部服务和外部访问进行严格管控，最大限度降低安全风险。

希望这份指南能帮你借助 Kubernetes 部署一套稳定可靠的大语言模型，同时确保你的所有数据不会泄漏到第三方平台。（本文系转载，文章来源）