Phi-3.5-mini-instruct从零开始:vLLM服务启动+Chainlit前端打开+提问验证全链路

张开发
2026/4/21 18:49:04 15 分钟阅读

分享文章

Phi-3.5-mini-instruct从零开始:vLLM服务启动+Chainlit前端打开+提问验证全链路
Phi-3.5-mini-instruct从零开始vLLM服务启动Chainlit前端打开提问验证全链路1. 模型简介Phi-3.5-mini-instruct 是一个轻量级但功能强大的开放模型属于Phi-3模型家族。它基于高质量的训练数据构建包括合成数据和经过严格筛选的公开网站数据特别注重推理密集型任务的处理能力。这个模型有几个显著特点支持128K令牌的超长上下文处理经过监督微调、近端策略优化和直接偏好优化的三重训练具备精确的指令遵循能力和完善的安全措施轻量级设计适合在各种硬件环境下部署2. 环境准备与vLLM服务启动2.1 系统要求在开始之前请确保你的系统满足以下基本要求Linux操作系统推荐Ubuntu 20.04或更高版本Python 3.8或更高版本至少16GB内存推荐32GB以上支持CUDA的NVIDIA GPU推荐显存8GB以上2.2 安装依赖首先我们需要安装必要的Python包pip install vllm chainlit torch transformers2.3 启动vLLM服务使用以下命令启动vLLM服务python -m vllm.entrypoints.api_server \ --model Phi-3.5-mini-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9这个命令会加载Phi-3.5-mini-instruct模型使用单GPU运行如果有多GPU可以调整tensor-parallel-size参数设置GPU内存利用率为90%2.4 验证服务是否正常运行服务启动后可以通过以下命令检查日志cat /root/workspace/llm.log如果看到类似下面的输出说明服务已成功启动INFO 05-08 14:30:22 api_server.py:150] Loading model weights... INFO 05-08 14:32:45 api_server.py:162] Model loaded successfully INFO 05-08 14:32:45 api_server.py:175] Starting API server on port 8000...3. Chainlit前端配置与使用3.1 创建Chainlit应用新建一个Python文件例如app.py添加以下内容import chainlit as cl from openai import OpenAI client OpenAI( base_urlhttp://localhost:8000/v1, api_keyno-key-required ) cl.on_message async def main(message: cl.Message): response client.chat.completions.create( modelPhi-3.5-mini-instruct, messages[ {role: system, content: 你是一个乐于助人的AI助手}, {role: user, content: message.content} ], temperature0.7, ) await cl.Message(contentresponse.choices[0].message.content).send()3.2 启动Chainlit前端运行以下命令启动前端界面chainlit run app.py -w参数说明-w表示自动重新加载应用开发模式3.3 访问前端界面服务启动后默认会在终端显示访问地址通常是http://localhost:8000。打开浏览器访问该地址你将看到一个简洁的聊天界面。4. 全链路测试与验证4.1 测试模型响应在前端界面输入问题例如 请用简单的语言解释量子计算的基本原理模型应该会返回一个清晰、专业的回答展示其理解能力和表达能力。4.2 验证长上下文能力尝试输入一个需要长上下文理解的问题例如 请总结以下文章的主要观点[粘贴一篇长文]观察模型是否能正确处理128K令牌的长上下文。4.3 测试指令遵循输入具体指令测试模型的遵循能力例如 请用五句话解释相对论每句话不超过15个字检查模型是否严格遵循了你的字数限制和句子数量要求。5. 常见问题解决5.1 服务启动失败如果vLLM服务无法启动可以检查GPU驱动和CUDA是否正确安装显存是否足够尝试降低--gpu-memory-utilization值模型路径是否正确5.2 前端无法连接如果Chainlit无法连接到vLLM服务确认vLLM服务正在运行检查端口8000确保base_url设置正确检查防火墙设置是否阻止了本地端口通信5.3 模型响应慢如果模型响应速度不理想尝试降低temperature参数值减少输入长度检查GPU利用率是否达到瓶颈6. 总结通过本教程我们完成了Phi-3.5-mini-instruct模型从服务启动到前端交互的全链路部署。这套方案具有以下优势高效部署vLLM提供了高性能的模型服务能力易用交互Chainlit提供了简洁美观的前端界面功能全面支持长上下文处理和复杂指令理解你可以基于这个基础架构进一步开发更复杂的应用如构建知识问答系统开发智能写作助手创建个性化聊天机器人获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章