通义千问1.5-1.8B-Chat-GPTQ-Int4 Java开发集成指南：SpringBoot微服务调用实战

张开发

• 2026/4/19 4:01:04 • 15 分钟阅读

分享文章

通义千问1.5-1.8B-Chat-GPTQ-Int4 Java开发集成指南SpringBoot微服务调用实战最近在做一个内部知识问答系统后端用的是SpringBoot前端想接入一个智能对话能力。一开始想用现成的云服务但考虑到数据安全和成本还是决定自己部署一个轻量级的开源模型。试了几个之后发现通义千问1.5-1.8B这个版本经过GPTQ-Int4量化后对资源要求不高响应速度也快特别适合集成到现有的Java微服务里。如果你也在找一种方法能把AI对话能力像调用普通服务一样无缝对接到你的SpringBoot项目里那这篇文章就是为你写的。我会从头到尾把怎么调用部署在星图GPU平台上的通义千问模型封装成一个稳定、好用的服务层整个过程掰开揉碎了讲清楚。1. 场景与准备为什么要在Java项目里集成大模型很多Java后端开发者可能觉得AI模型调用是Python那边的事离我们有点远。其实不然。现在很多企业应用比如智能客服、内容审核辅助、内部知识库问答都需要在后端服务里嵌入理解自然语言的能力。把这些能力做成微服务中的一个模块由Java来统一调度和管理架构上更清晰也更好维护。这次我们用的通义千问1.5-1.8B-Chat-GPTQ-Int4是一个经过压缩和优化的对话模型。1.8B指的是参数量Chat说明它擅长对话GPTQ-Int4是一种量化技术能把模型“瘦身”让它在消耗更少显存的情况下运行。把它部署在星图GPU平台上就相当于有了一个随时可以调用的AI服务接口。在开始写代码之前你需要准备好这几样东西一个已经部署好的模型服务你需要先在星图GPU平台上把通义千问1.5-1.8B-Chat-GPTQ-Int4的镜像跑起来并拿到它的API访问地址比如http://你的服务器地址:端口/v1/chat/completions。这个过程在星图平台上有很详细的一键部署指南这里就不展开了。一个SpringBoot项目版本2.x或3.x都可以我们用到的都是比较通用的组件。必要的依赖主要是用来发HTTP请求和处理JSON的库。SpringBoot自带的RestTemplate或者更现代的WebClient都可以我个人更喜欢用OkHttp感觉更轻快一些。我们还会用到Jackson来序列化JSON。在项目的pom.xml里加上这些依赖就差不多了dependency groupIdorg.springframework.boot/groupId artifactIdspring-boot-starter-web/artifactId /dependency dependency groupIdcom.squareup.okhttp3/groupId artifactIdokhttp/artifactId version4.12.0/version !-- 使用当时最新稳定版 -- /dependency dependency groupIdcom.fasterxml.jackson.core/groupId artifactIdjackson-databind/artifactId /dependency2. 核心步骤构建一个健壮的HTTP客户端模型服务跑起来后会提供一个兼容OpenAI API格式的接口。我们的首要任务就是创建一个Java客户端能稳定、高效地和这个接口对话。2.1 定义请求与响应的数据结构首先我们得用Java对象来描述我们发送什么以及预期收到什么。这能让代码更清晰也方便后续维护。请求体我们需要告诉模型“角色”和“内容”。通常一次对话会包含一个消息列表。import com.fasterxml.jackson.annotation.JsonProperty; import lombok.Data; import java.util.List; Data public class ChatCompletionRequest { private String model qwen1.5-1.8b-chat; // 模型名称按实际部署的填 private ListMessage messages; private double temperature 0.7; // 控制随机性0-1之间 private int max_tokens 1024; // 生成的最大长度 Data public static class Message { private String role; // system, user, assistant private String content; } }响应体模型返回的内容是嵌套的我们需要把最终的回答提取出来。import com.fasterxml.jackson.annotation.JsonProperty; import lombok.Data; import java.util.List; Data public class ChatCompletionResponse { private String id; private String object; private long created; private ListChoice choices; Data public static class Choice { private int index; private Message message; private String finish_reason; } // 这里复用了请求体里的Message类实际上结构是一样的 // 也可以单独定义一个ResponseMessage }2.2 封装一个可配置的客户端接下来我们创建一个服务类把HTTP调用的细节封装起来。这里我用OkHttpClient因为它连接池、超时控制都很方便。import com.fasterxml.jackson.databind.ObjectMapper; import lombok.extern.slf4j.Slf4j; import okhttp3.*; import org.springframework.beans.factory.annotation.Value; import org.springframework.stereotype.Component; import javax.annotation.PostConstruct; import java.io.IOException; import java.util.concurrent.TimeUnit; Slf4j Component public class QwenAIClient { Value(${qwen.api.url}) private String apiUrl; // 在application.yml里配置例如: http://localhost:8000/v1/chat/completions Value(${qwen.api.timeout:30}) private int timeoutSeconds; private OkHttpClient client; private final ObjectMapper objectMapper new ObjectMapper(); private final MediaType JSON MediaType.get(application/json; charsetutf-8); PostConstruct public void init() { this.client new OkHttpClient.Builder() .connectTimeout(timeoutSeconds, TimeUnit.SECONDS) .readTimeout(timeoutSeconds, TimeUnit.SECONDS) .writeTimeout(timeoutSeconds, TimeUnit.SECONDS) .build(); log.info(通义千问AI客户端初始化完成API地址: {}, apiUrl); } public String chat(ListChatCompletionRequest.Message messages) throws IOException { // 1. 构建请求体 ChatCompletionRequest request new ChatCompletionRequest(); request.setMessages(messages); String requestBody objectMapper.writeValueAsString(request); RequestBody body RequestBody.create(requestBody, JSON); // 2. 构建HTTP请求 Request httpRequest new Request.Builder() .url(apiUrl) .post(body) .addHeader(Content-Type, application/json) .build(); // 3. 发送请求并处理响应 try (Response response client.newCall(httpRequest).execute()) { if (!response.isSuccessful()) { throw new IOException(Unexpected code response , body: (response.body() ! null ? response.body().string() : null)); } String responseBody response.body().string(); ChatCompletionResponse completionResponse objectMapper.readValue(responseBody, ChatCompletionResponse.class); // 4. 提取模型返回的文本 if (completionResponse.getChoices() ! null !completionResponse.getChoices().isEmpty()) { return completionResponse.getChoices().get(0).getMessage().getContent(); } else { throw new IOException(模型响应中未包含有效内容); } } } }这个客户端类做了几件关键事通过Value从配置文件读取服务地址和超时时间使用连接池和超时设置来保证网络稳定性用Jackson处理JSON序列化与反序列化最后把模型返回的复杂JSON解析成我们想要的字符串答案。3. 服务层设计让对话更符合业务逻辑直接调用客户端虽然能工作但在实际业务里往往不够用。比如我们需要管理多轮对话的历史或者给不同的对话场景设置不同的系统指令。这就需要一个服务层来统筹。3.1 设计一个会话感知的对话服务我们可以设计一个DialogService让它来维护会话状态。这里用一个简单的内存Map来模拟生产环境可以考虑用Redis。import com.example.demo.dto.ChatCompletionRequest; import com.example.demo.client.QwenAIClient; import lombok.extern.slf4j.Slf4j; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Service; import java.util.*; Slf4j Service public class DialogService { Autowired private QwenAIClient qwenAIClient; // 用于存储用户会话历史Key可以是userIdsessionId的组合 private MapString, ListChatCompletionRequest.Message sessionHistory new HashMap(); /** * 发送消息并获取回复自动维护会话历史 * param sessionId 会话ID * param userMessage 用户输入 * param systemPrompt 系统指令可选用于设定AI角色 * return AI的回复 */ public String sendMessage(String sessionId, String userMessage, String systemPrompt) throws IOException { // 1. 获取或初始化该会话的历史记录 ListChatCompletionRequest.Message history sessionHistory.getOrDefault(sessionId, new ArrayList()); // 2. 如果是新会话且提供了系统指令则添加到历史开头 if (history.isEmpty() systemPrompt ! null !systemPrompt.trim().isEmpty()) { ChatCompletionRequest.Message systemMsg new ChatCompletionRequest.Message(); systemMsg.setRole(system); systemMsg.setContent(systemPrompt); history.add(systemMsg); } // 3. 将用户本次输入加入历史 ChatCompletionRequest.Message userMsg new ChatCompletionRequest.Message(); userMsg.setRole(user); userMsg.setContent(userMessage); history.add(userMsg); // 4. 调用AI客户端获取回复 log.info(会话[{}]发送请求历史消息数: {}, sessionId, history.size()); String aiResponse qwenAIClient.chat(history); // 5. 将AI回复加入历史并保存回Map ChatCompletionRequest.Message assistantMsg new ChatCompletionRequest.Message(); assistantMsg.setRole(assistant); assistantMsg.setContent(aiResponse); history.add(assistantMsg); // 6. 简单限制历史长度防止无限增长可选 if (history.size() 20) { // 保留最近10轮对话每轮userassistant两条消息 history history.subList(history.size() - 20, history.size()); } sessionHistory.put(sessionId, history); log.info(会话[{}]收到回复当前历史消息数: {}, sessionId, history.size()); return aiResponse; } /** * 清除指定会话的历史 */ public void clearHistory(String sessionId) { sessionHistory.remove(sessionId); log.info(已清除会话[{}]的历史记录, sessionId); } }这个服务的好处是业务代码比如Controller不需要关心消息列表怎么组只需要传入会话ID和用户问题就行。服务内部会自动带上之前的对话历史让模型能理解上下文实现连续对话。3.2 在Controller中提供RESTful API最后我们通过一个简单的Controller把对话能力暴露成HTTP API供前端或其他服务调用。import com.example.demo.service.DialogService; import lombok.extern.slf4j.Slf4j; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.web.bind.annotation.*; import java.io.IOException; import java.util.HashMap; import java.util.Map; Slf4j RestController RequestMapping(/api/ai) public class AIController { Autowired private DialogService dialogService; PostMapping(/chat) public MapString, Object chat(RequestBody ChatRequest request) { MapString, Object response new HashMap(); try { String answer dialogService.sendMessage(request.getSessionId(), request.getMessage(), request.getSystemPrompt()); response.put(success, true); response.put(data, answer); } catch (IOException e) { log.error(调用AI服务失败, e); response.put(success, false); response.put(msg, AI服务暂时不可用: e.getMessage()); } return response; } PostMapping(/clear) public MapString, Object clearHistory(RequestParam String sessionId) { dialogService.clearHistory(sessionId); MapString, Object response new HashMap(); response.put(success, true); response.put(msg, 会话历史已清除); return response; } // 简单的请求体 Data public static class ChatRequest { private String sessionId; private String message; private String systemPrompt; // 可选例如“你是一个专业的Java技术顾问” } }这样一个完整的、具备会话管理能力的AI对话微服务模块就搭建好了。前端只需要调用/api/ai/chat这个接口就能实现连续的智能对话。4. 进阶思考与优化建议把基础跑通只是第一步真要放到生产环境还有不少地方可以打磨。首先是异步化。模型推理可能需要几秒钟如果直接用同步HTTP调用会阻塞当前线程。在SpringBoot里我们可以很容易地改用异步非阻塞的WebClient或者用Async注解将方法改为异步执行提升服务的并发处理能力。其次是容错与降级。网络和服务都不完全可靠。我们需要添加重试机制比如用RetryTemplate、设置合理的超时时间、以及准备一个降级策略。比如当模型服务不可用时可以返回一个默认提示或者切换到一个更简单的规则引擎。然后是会话管理的升级。上面用的内存Map在单机时没问题但服务一旦重启或者扩容状态就丢了。实际项目中需要把会话历史持久化到外部存储比如Redis或者数据库里。这样不仅能跨服务实例共享状态还能方便地设置会话的过期时间。最后是监控与日志。记录每次调用的耗时、成功失败情况、输入输出的长度注意脱敏等对于后期排查问题、分析使用情况和优化性能都非常有帮助。5. 总结走完这一趟你会发现把通义千问这样的开源大模型集成到SpringBoot项目里并没有想象中那么复杂。核心就是三步定义一个好用的HTTP客户端、设计一个管理对话状态的服务层、最后通过REST API暴露出去。这种做法的好处很明显AI能力成了你微服务架构里一个普通的组件和其他业务服务一样可以统一管理、监控和扩展。无论是做智能客服、内容生成还是数据分析辅助你都可以用熟悉的Java技术栈来快速实现和迭代。我自己的项目接入后最直观的感受是开发效率提升了。一些需要简单逻辑判断和文本生成的场景现在直接调这个服务就行省去了很多硬编码的规则。当然模型毕竟不是万能的对于复杂和精准的业务逻辑还是需要传统的代码来保证。把它们结合起来用效果反而更好。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/4/13 7:51:39

大模型---大模型的参数微调

目录一.全参微调二.PERT 1.LoRA/QLoRA （1）LoRA （2）QLoRA 2.Prompt Tuning/Prefix Tuning/P-Tuning v2 （1）Prompt Tuning （2）Prefix Tuning （3） P-Tuning v2 （4）与LoRA的区别三.微调方式的选择四.MPT(Multitask Prompt Tuning) 微调(Fine-tuning)是…

张开发

前端开发 2026/4/13 7:51:39

UvA Deep Learning Tutorials对抗攻击防御：保护深度学习模型的10个安全策略

UvA Deep Learning Tutorials对抗攻击防御：保护深度学习模型的10个安全策略【免费下载链接】uvadlc_notebooks Repository of Jupyter notebook tutorials for teaching the Deep Learning Course at the University of Amsterdam (MSc AI), Fall 2022/Spring 2022…

张开发

前端开发 2026/4/13 7:51:40

如何精通逆向工程：从InitializePlayer函数深入内存拷贝与数据结构分析

如何精通逆向工程：从InitializePlayer函数深入内存拷贝与数据结构分析【免费下载链接】Z0FCourse_ReverseEngineering Reverse engineering focusing on x64 Windows. 项目地址: https://gitcode.com/gh_mirrors/z0/Z0FCourse_ReverseEngineering 逆向工程是…

张开发

$【Triton 教程】math-ops$

前端开发 2026/4/13 7:51:40

【Triton 教程】math-ops

Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在现代 GPU 硬件上以最大吞吐量运行。 *在线运行 Triton 学习教程 → go.hyper.ai/wS9x1 triton_language.abs triton.languag…

张开发

前端开发 2026/4/13 7:51:41

如何为Whisper ASR Webservice开发自定义引擎和插件

如何为Whisper ASR Webservice开发自定义引擎和插件【免费下载链接】whisper-asr-webservice OpenAI Whisper ASR Webservice API 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-asr-webservice Whisper ASR Webservice是一个基于OpenAI Whisper的语音识别服务…

张开发

前端开发 2026/4/13 7:51:41

还在为H5页面开发头疼吗？开源编辑器h5maker让你5分钟搞定专业级设计

还在为H5页面开发头疼吗？开源编辑器h5maker让你5分钟搞定专业级设计【免费下载链接】h5maker h5编辑器类似maka、易企秀账号/密码：admin 项目地址: https://gitcode.com/gh_mirrors/h5/h5maker 你是否曾因需要快速制作一个H5页面而烦恼&#xf…

张开发

前端开发 2026/4/13 7:51:42

如何在DroidKaigi 2024官方应用中实现高效列表展示：Compose最佳实践指南

如何在DroidKaigi 2024官方应用中实现高效列表展示：Compose最佳实践指南【免费下载链接】conference-app-2024 The Official Conference App for DroidKaigi 2024 项目地址: https://gitcode.com/GitHub_Trending/co/conference-app-2024 DroidKaigi 2024官…

张开发

前端开发 2026/4/13 7:51:43

AIGlasses_for_navigation开发者社区：CSDN博客写作与技术分享指南

AIGlasses_for_navigation开发者社区：CSDN博客写作与技术分享指南如果你刚用AIGlasses_for_navigation完成了一个酷炫的项目，或者踩坑填坑总结了一套经验，下一步该做什么？我的建议是：写下来，分享出去。 …

张开发

前端开发 2026/4/13 7:51:42

intv_ai_mk11详细步骤：24GB单卡部署Llama模型并启用Web UI全流程

24GB单卡部署Llama模型并启用Web UI全流程指南 1. 环境准备与快速部署在开始部署intv_ai_mk11模型前，我们需要确保硬件和软件环境满足基本要求。这个中等规模的Llama架构模型可以在单张24GB显存的GPU上流畅运行，非常适合个人开发者和小型团队使用。 …

张开发

前端开发 2026/4/17 3:00:12

ESP32隐藏技能：5分钟搭建带记忆功能的WiFi配网服务器（PlatformIO全流程）

ESP32智能配网实战：5分钟实现带记忆功能的Web服务器想象一下，你刚完成了一个基于ESP32的智能家居控制器，准备部署到客户家中。但每次断电重启后，设备都会忘记WiFi密码，需要重新配置——这种体验显然不够优雅。本文将带…

张开发

前端开发 2026/4/12 10:41:51

探秘书匠策AI：毕业论文写作的“智能魔法师”

在学术的征途中，毕业论文如同一座巍峨的山峰，让无数学生既敬畏又向往。选题迷茫、文献难寻、结构混乱……这些问题如同山路上的荆棘，阻碍着每一位攀登者的脚步。然而，在科技日新月异的今天，一位“智能魔法师”——书匠…

张开发

前端开发 2026/4/13 7:51:44

FastAPI日志配置终极指南：10个简单步骤实现生产级日志管理

FastAPI日志配置终极指南：10个简单步骤实现生产级日志管理【免费下载链接】fastapi FastAPI framework, high performance, easy to learn, fast to code, ready for production 项目地址: https://gitcode.com/GitHub_Trending/fa/fastapi FastAPI作为现代…

张开发

通义千问1.5-1.8B-Chat-GPTQ-Int4 Java开发集成指南：SpringBoot微服务调用实战

最新文章

Cadence Allegro PCB设计：5个必学的临时快捷键设置技巧（含旋转/翻转）

仅剩72小时！奇点大会回滚建议API公测通道即将关闭：手把手接入支持Python/TypeScript/Rust的实时建议SDK

别再只用VAE或GAN了！手把手教你用PyTorch复现VAE-GAN，生成更清晰的人脸图像

SAP ABAP实战：手把手教你为VA01销售订单添加自定义字段（含BAPI更新避坑指南）

用Python脚本自动备份你的百度网盘文件列表（附完整代码）

‌如何为智慧校园软件选型？用好多维数据才能真正优化管理流程

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

大模型---大模型的参数微调

UvA Deep Learning Tutorials对抗攻击防御：保护深度学习模型的10个安全策略

如何精通逆向工程：从InitializePlayer函数深入内存拷贝与数据结构分析

【Triton 教程】math-ops

如何为Whisper ASR Webservice开发自定义引擎和插件

还在为H5页面开发头疼吗？开源编辑器h5maker让你5分钟搞定专业级设计

如何在DroidKaigi 2024官方应用中实现高效列表展示：Compose最佳实践指南

AIGlasses_for_navigation开发者社区：CSDN博客写作与技术分享指南

intv_ai_mk11详细步骤：24GB单卡部署Llama模型并启用Web UI全流程

ESP32隐藏技能：5分钟搭建带记忆功能的WiFi配网服务器（PlatformIO全流程）

探秘书匠策AI：毕业论文写作的“智能魔法师”

FastAPI日志配置终极指南：10个简单步骤实现生产级日志管理

通义千问1.5-1.8B-Chat-GPTQ-Int4 Java开发集成指南：SpringBoot微服务调用实战

最新文章

Cadence Allegro PCB设计：5个必学的临时快捷键设置技巧（含旋转/翻转）

仅剩72小时！奇点大会回滚建议API公测通道即将关闭：手把手接入支持Python/TypeScript/Rust的实时建议SDK

别再只用VAE或GAN了！手把手教你用PyTorch复现VAE-GAN，生成更清晰的人脸图像

SAP ABAP实战：手把手教你为VA01销售订单添加自定义字段（含BAPI更新避坑指南）

用Python脚本自动备份你的百度网盘文件列表（附完整代码）

‌如何为智慧校园软件选型？用好多维数据才能真正优化管理流程

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南