Phi-3.5-mini-instruct从零开始：vLLM服务启动+Chainlit前端打开+提问验证全链路

张开发

• 2026/4/21 18:49:04 • 15 分钟阅读

分享文章

Phi-3.5-mini-instruct从零开始vLLM服务启动Chainlit前端打开提问验证全链路1. 模型简介Phi-3.5-mini-instruct 是一个轻量级但功能强大的开放模型属于Phi-3模型家族。它基于高质量的训练数据构建包括合成数据和经过严格筛选的公开网站数据特别注重推理密集型任务的处理能力。这个模型有几个显著特点支持128K令牌的超长上下文处理经过监督微调、近端策略优化和直接偏好优化的三重训练具备精确的指令遵循能力和完善的安全措施轻量级设计适合在各种硬件环境下部署2. 环境准备与vLLM服务启动2.1 系统要求在开始之前请确保你的系统满足以下基本要求Linux操作系统推荐Ubuntu 20.04或更高版本Python 3.8或更高版本至少16GB内存推荐32GB以上支持CUDA的NVIDIA GPU推荐显存8GB以上2.2 安装依赖首先我们需要安装必要的Python包pip install vllm chainlit torch transformers2.3 启动vLLM服务使用以下命令启动vLLM服务python -m vllm.entrypoints.api_server \ --model Phi-3.5-mini-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9这个命令会加载Phi-3.5-mini-instruct模型使用单GPU运行如果有多GPU可以调整tensor-parallel-size参数设置GPU内存利用率为90%2.4 验证服务是否正常运行服务启动后可以通过以下命令检查日志cat /root/workspace/llm.log如果看到类似下面的输出说明服务已成功启动INFO 05-08 14:30:22 api_server.py:150] Loading model weights... INFO 05-08 14:32:45 api_server.py:162] Model loaded successfully INFO 05-08 14:32:45 api_server.py:175] Starting API server on port 8000...3. Chainlit前端配置与使用3.1 创建Chainlit应用新建一个Python文件例如app.py添加以下内容import chainlit as cl from openai import OpenAI client OpenAI( base_urlhttp://localhost:8000/v1, api_keyno-key-required ) cl.on_message async def main(message: cl.Message): response client.chat.completions.create( modelPhi-3.5-mini-instruct, messages[ {role: system, content: 你是一个乐于助人的AI助手}, {role: user, content: message.content} ], temperature0.7, ) await cl.Message(contentresponse.choices[0].message.content).send()3.2 启动Chainlit前端运行以下命令启动前端界面chainlit run app.py -w参数说明-w表示自动重新加载应用开发模式3.3 访问前端界面服务启动后默认会在终端显示访问地址通常是http://localhost:8000。打开浏览器访问该地址你将看到一个简洁的聊天界面。4. 全链路测试与验证4.1 测试模型响应在前端界面输入问题例如请用简单的语言解释量子计算的基本原理模型应该会返回一个清晰、专业的回答展示其理解能力和表达能力。4.2 验证长上下文能力尝试输入一个需要长上下文理解的问题例如请总结以下文章的主要观点[粘贴一篇长文]观察模型是否能正确处理128K令牌的长上下文。4.3 测试指令遵循输入具体指令测试模型的遵循能力例如请用五句话解释相对论每句话不超过15个字检查模型是否严格遵循了你的字数限制和句子数量要求。5. 常见问题解决5.1 服务启动失败如果vLLM服务无法启动可以检查GPU驱动和CUDA是否正确安装显存是否足够尝试降低--gpu-memory-utilization值模型路径是否正确5.2 前端无法连接如果Chainlit无法连接到vLLM服务确认vLLM服务正在运行检查端口8000确保base_url设置正确检查防火墙设置是否阻止了本地端口通信5.3 模型响应慢如果模型响应速度不理想尝试降低temperature参数值减少输入长度检查GPU利用率是否达到瓶颈6. 总结通过本教程我们完成了Phi-3.5-mini-instruct模型从服务启动到前端交互的全链路部署。这套方案具有以下优势高效部署vLLM提供了高性能的模型服务能力易用交互Chainlit提供了简洁美观的前端界面功能全面支持长上下文处理和复杂指令理解你可以基于这个基础架构进一步开发更复杂的应用如构建知识问答系统开发智能写作助手创建个性化聊天机器人获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Phi-3.5-mini-instruct从零开始：vLLM服务启动+Chainlit前端打开+提问验证全链路

最新文章

3分钟上手！用face-api.js在浏览器中实现人脸识别，小白也能玩转AI

西安交通大学LaTeX论文模板：3步解决格式难题的完整方案

输入法词库转换终极指南：3分钟实现20+格式互转的完整解决方案

别再只会用WebCamTexture了！Unity 2022+摄像头开发新思路：RenderTexture与Universal RP的混合实践

Windows 11开始菜单失效的5步实战解决方案：ExplorerPatcher深度应用

DeepSeek V4即将上线：百万Token上下文+专家模式

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

4个超简单方法！Word表格批量填文字原来这么容易

国产化迁移踩坑记：当ShardingSphere遇上达梦数据库，我是如何搞定分页和系统表问题的

3个颠覆性功能：让APK Installer重新定义Windows上的Android应用安装

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

开箱即用：CSDN星图镜像一键部署Yi-Coder-1.5B代码助手

告别白模！用Unity ProBuilder 2021版为你的场景原型快速上色与设置材质（含顶点颜色技巧）

一个磷酸铁锂体系电池comsol模型电化学热耦合模型可做容量衰减，极化，老化，电势降等等 ...

Mac学Linux新姿势：VMware Fusion装Ubuntu后，用VS Code远程开发真香了

WinUSB设备开发避坑指南：从Bus Hound抓包到驱动安装失败的排查

别再当老实人了！用博弈论拆解程序员薪资谈判，教你多拿几个Offer

保姆级教程：手把手调试vLLM的模型加载流程（附Worker进程启动全流程）

Matlab新手避坑指南：find函数返回索引的3种格式（线性、行列、值）到底怎么用？

Phi-3.5-mini-instruct从零开始：vLLM服务启动+Chainlit前端打开+提问验证全链路

最新文章

3分钟上手！用face-api.js在浏览器中实现人脸识别，小白也能玩转AI

西安交通大学LaTeX论文模板：3步解决格式难题的完整方案

输入法词库转换终极指南：3分钟实现20+格式互转的完整解决方案

别再只会用WebCamTexture了！Unity 2022+摄像头开发新思路：RenderTexture与Universal RP的混合实践

Windows 11开始菜单失效的5步实战解决方案：ExplorerPatcher深度应用

DeepSeek V4即将上线：百万Token上下文+专家模式

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南