手把手教你用SpringBoot + Ollama本地部署DeepSeek-R1，告别API调用费

张开发

• 2026/4/17 18:39:39 • 15 分钟阅读

分享文章

手把手教你用SpringBoot Ollama本地部署DeepSeek-R1告别API调用费在AI技术快速发展的今天越来越多的开发者希望将大模型能力集成到自己的应用中。然而云端API调用不仅带来持续的成本压力还存在数据隐私和安全风险。本文将为你提供一个完整的本地部署方案让你一次性投入长期免费使用AI能力。1. 为什么选择本地部署大模型对于成本敏感型开发者或中小企业来说本地部署大模型具有多重优势成本节约云端API通常按调用次数或token数量计费长期使用成本惊人。本地部署只需一次性硬件投入后续几乎零成本数据安全所有数据处理都在本地完成敏感信息不会外泄特别适合金融、医疗等对数据安全要求高的行业低延迟响应省去了网络传输环节响应速度提升数倍对实时性要求高的应用场景尤为关键离线可用不依赖网络连接在无网或内网环境中也能正常使用高度定制可以自由选择模型版本进行微调和参数优化完全掌控模型行为提示对于显存8GB的中端显卡DeepSeek-R1的8B蒸馏版是最佳选择在性能和资源消耗间取得了良好平衡。2. 环境准备与Ollama安装2.1 硬件要求检查在开始之前请确保你的开发环境满足以下最低要求组件最低配置推荐配置操作系统Windows 10Windows 11CPU4核8核及以上内存16GB32GB显卡NVIDIA GTX 1060 6GBRTX 3060 12GB存储50GB可用空间100GB SSD2.2 Ollama安装步骤Ollama是一个开源的本地大模型部署工具支持多种主流模型。安装过程非常简单访问Ollama官网下载页面选择与你的操作系统匹配的安装包双击安装文件按照向导完成安装打开终端运行ollama --version验证安装成功安装完成后Ollama会作为后台服务自动运行默认监听11434端口。3. 模型选择与部署3.1 根据硬件选择合适模型不同显存配置适合不同的模型版本# 4GB显存 ollama pull deepseek-r1:4b # 8GB显存推荐大多数开发者 ollama pull deepseek-r1:8b # 12GB显存 ollama pull deepseek-r1:16b3.2 模型下载与验证执行pull命令后Ollama会自动下载选定的模型。下载完成后可以通过以下命令测试模型是否正常工作ollama run deepseek-r1:8b 请介绍一下你自己如果看到模型返回了合理的自我介绍说明部署成功。4. SpringBoot应用集成4.1 项目配置在SpringBoot项目中添加LangChain4j的Ollama starter依赖dependency groupIddev.langchain4j/groupId artifactIdlangchain4j-ollama-spring-boot-starter/artifactId version0.25.0/version /dependency然后在application.yml中添加配置langchain4j: ollama: chat-model: base-url: http://localhost:11434 model-name: deepseek-r1:8b temperature: 0.7 timeout: 60s4.2 服务层实现创建一个简单的服务类来封装模型调用Service RequiredArgsConstructor public class AIService { private final OllamaChatModel chatModel; public String chat(String prompt) { return chatModel.generate(prompt); } public ListString batchChat(ListString prompts) { return prompts.stream() .map(this::chat) .collect(Collectors.toList()); } }4.3 控制器设计实现一个REST接口供前端调用RestController RequestMapping(/api/ai) RequiredArgsConstructor public class AIController { private final AIService aiService; PostMapping(/chat) public ResponseEntityMapString, String chat(RequestBody MapString, String request) { String prompt request.get(prompt); String response aiService.chat(prompt); return ResponseEntity.ok(Map.of(response, response)); } }5. 性能优化与常见问题5.1 显存优化技巧对于显存有限的设备可以尝试以下优化方法使用--num-gpu-layers参数控制GPU层数调整--ctx-size减少上下文长度启用--low-vram模式使用量化版本模型5.2 常见错误排查错误现象可能原因解决方案模型加载失败显存不足换用更小的模型版本响应速度慢CPU瓶颈升级CPU或启用GPU加速返回乱码编码问题检查系统locale设置连接拒绝Ollama未运行重启Ollama服务5.3 高级配置示例对于生产环境建议添加以下配置langchain4j: ollama: chat-model: max-retries: 3 log-requests: true log-responses: true temperature: 0.5 top-p: 0.9 max-tokens: 10246. 实际应用案例6.1 智能客服系统本地部署的DeepSeek-R1可以完美替代传统的在线客服机器人public class CustomerService { private final AIService aiService; public String handleCustomerQuery(String question) { String prompt 你是一个专业的客服代表请用友好专业的语气回答以下客户问题\n question; return aiService.chat(prompt); } }6.2 文档智能处理结合RAG技术可以实现企业文档的智能检索与摘要public class DocumentProcessor { public String summarizeDocument(String text) { String prompt 请用200字总结以下文档的核心内容\n text; return aiService.chat(prompt); } }6.3 代码辅助开发DeepSeek-R1对代码理解能力出色可以作为开发助手public String explainCode(String code) { String prompt 请解释以下代码的功能和工作原理\njava\n code \n; return aiService.chat(prompt); }在实际项目中我发现将模型温度参数设置在0.5-0.7之间通常能获得最佳平衡既保持创造性又不会太过天马行空。对于关键业务场景建议添加人工审核环节特别是在金融、法律等专业领域。

更多文章

前端开发 2026/4/15 15:10:33

flask 路由 add_url_rule 、@app.route app.test_request_context()

from flask import Flaskapp Flask(__name__)def hello():return "Hello, World!"# 注册路由 app.add_url_rule(/, hello, hello)# 等价于： # app.route(/) # def hello(): # return "Hello, World!"# 带变量的路由 def user_profile(us…

1. H3C模拟器HCL 2.1.2简介与适用场景 H3C模拟器HCL（H3C Cloud Lab）是新华三官方推出的网络设备模拟工具，能够模拟路由器、交换机等网络设备的运行环境。最新发布的2.1.2版本在Windows 10系统下表现尤为出色，特别优化了对VirtualB…

张开发

前端开发 2026/4/15 14:49:43

上下文内定聚合根，实体，值对象，并绘制上下文映射图

领域驱动设计：聚合根、实体、值对象与上下文映射图本文从 DDD（领域驱动设计）的核心战术设计元素出发，结合上下文映射的战略设计，给出完整的定义、判断标准、代码示例和映射图绘制方法。一、核心概念定义 1.1 实体（Entity）定义：具有唯一标识符的对象，其标识在其生…

张开发

手把手教你用SpringBoot + Ollama本地部署DeepSeek-R1，告别API调用费

最新文章

GIMP批量图像处理插件BIMP完全指南：轻松自动化你的图片工作流

BilibiliDown：5分钟学会B站视频下载的终极指南 [特殊字符]

Simulink Bus信号实战：从虚拟到非虚拟的代码生成差异解析

为什么92%的DevOps团队尚未启用生成代码安全门禁？——一份被头部金融客户验证的SAST+IAST融合检查清单

从Copilot到CodeRover，智能生成与语义搜索深度耦合的7层技术栈全拆解，一线大厂内部文档首次公开

从纹波到效率：DC-DC与LDO的实战选型指南

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

flask 路由 add_url_rule 、@app.route app.test_request_context()

深度解析ComfyUI IPAdapter图像条件控制机制与实战解决方案

SIM900A模块AT指令没反应？别急着换模块，先检查这3个新手常踩的坑（附串口助手设置）

别再自己造轮子了！手把手教你用这个UniApp时间范围选择器插件（支持Vue2/Vue3）

2026最权威的六大降重复率工具实测分析

BilibiliDown终极指南：轻松下载B站高清视频的4种实用方案

5个理由告诉你，为什么每个3DS玩家都需要这款硬件检测神器

STM32F103ZET5个串口配置避坑指南：从USART1到UART5，时钟、中断、引脚一个都不能错

直击知网5.0新规！巧用DeepSeek与Kimi深度润色文本，降AI率提示词与主流工具硬核测评

测试左移2.0：AI预测缺陷的惊人效果

H3C模拟器HCL 2.1.2在Win10下的多虚拟化平台兼容指南：VBox、Hyper-V与VMware

上下文内定聚合根，实体，值对象，并绘制上下文映射图

手把手教你用SpringBoot + Ollama本地部署DeepSeek-R1，告别API调用费

最新文章

GIMP批量图像处理插件BIMP完全指南：轻松自动化你的图片工作流

BilibiliDown：5分钟学会B站视频下载的终极指南 [特殊字符]

Simulink Bus信号实战：从虚拟到非虚拟的代码生成差异解析

为什么92%的DevOps团队尚未启用生成代码安全门禁？——一份被头部金融客户验证的SAST+IAST融合检查清单

从Copilot到CodeRover，智能生成与语义搜索深度耦合的7层技术栈全拆解，一线大厂内部文档首次公开

从纹波到效率：DC-DC与LDO的实战选型指南

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南