Linux 或者 Ubuntu 离线使用 vllm启动大模型

张开发

• 2026/4/12 0:28:57 • 15 分钟阅读

分享文章

使用vllm启动QWQ-32B的命令完整的命令如下python-mvllm.entrypoints.openai.api_server\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--tensor-parallel-size4\--host0.0.0.0\--port8000\--max-num-batched-tokens2048\--gpu-memory-utilization0.85\--hosted-model-name QwQ-32B参数详解1.python -m vllm.entrypoints.openai.api_server启动的是vLLM 的 OpenAI API 兼容服务器这个服务器对外提供与 OpenAI API 类似的接口如/v1/chat/completions可以用curl、Python SDK 或前端调用兼容 OpenAI 格式请求2.--model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B指定要加载的模型路径这里是本地存储的QwQ-32B模型通常是一个 HuggingFace 风格的模型文件夹支持 GGUF、HuggingFace、以及经过 vLLM 转换后的张量并行模型3.--tensor-parallel-size 4表示使用4 块 GPU来进行Tensor Parallelism张量并行QwQ-32B 是一个大模型单卡放不下所以需要拆分到多个 GPU 上推理如果你有 4 张卡这个设置合理如果只有 1 张卡就设为--tensor-parallel-size 14.--host 0.0.0.0设置监听地址为所有网络接口这样可以从外部访问该服务比如从其他机器通过 IP 访问如果只想本机访问可以改为--host 127.0.0.15.--port 8000设置服务监听的端口号为8000可以通过浏览器或 API 请求访问http://localhost:8000或http://ip:80006.--max-num-batched-tokens 2048控制每次 batch 中最多处理多少个 token输入输出增大这个值可以提高吞吐量但会占用更多显存默认值通常是 2560 左右这里设为 2048 是为了控制显存使用7.--gpu-memory-utilization 0.85设置 GPU 显存使用率为 85%这是为了防止 OOMOut Of Memory留出一部分缓冲空间默认值是0.9如果你的显存较小可以适当降低如 0.78.--hosted-model-name QwQ-32B它表示虽然模型实际路径是 /root/.cache/…但对外暴露的模型名是 QwQ-32B要让MODEL_NAME QwQ-32B成功调用你的本地模型你需要在启动 vLLM 服务时加上一个参数--hosted-model-name QwQ-32B\# 也就是--host0.0.0.0\--port8000\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--hosted-model-name QwQ-32B\它表示虽然模型实际路径是/root/.cache/...但对外暴露的模型名是QwQ-32B示例请求使用 curl可以使用如下命令测试服务是否正常运行curlhttp://localhost:8000/v1/chat/completions\-HContent-Type: application/json\-d{ model: QwQ-32B, messages: [{role: user, content: 讲个笑话吧}] }示例请求代码使用pythonimportopenai clientopenai.OpenAI(base_urlhttp://localhost:8000/v1,api_keyEMPTY# 如果没有启用鉴权可以为空)completionclient.chat.completions.create(modelQwQ-32B,# ← 这里就能用了messages[{role:user,content:你好请讲个笑话。}])print(completion.choices[0].message.content)

更多文章

前端开发 2026/4/12 0:28:15

CKA-2026-Ingress

您必须连接到正确的主机。不这样做可能导致零分。[studentk8s-master1] $ ssh cka000000如下创建新的 Ingress 资源：名称： echoNamespace： sound-repeater使用 Service 端口 8080 在 http://example.org/echo 上公开 echoserver-service Serv…

张开发

前端开发 2026/4/12 0:28:34

n8n实战指南：低代码自动化工作流从入门到精通

1. 认识n8n：低代码自动化新利器第一次听说n8n时，我正被每天重复的API对接工作折磨得焦头烂额。这个发音像"nation"（去掉第一个字母）的开源工具，用三个月时间彻底改变了我的工作方式。简单来说，n…

张开发

前端开发 2026/4/9 8:00:43

WuliArt Qwen-Image Turbo快速上手：一条命令启动Web界面，输入文字就出图

WuliArt Qwen-Image Turbo快速上手：一条命令启动Web界面，输入文字就出图 1. 为什么选择WuliArt Qwen-Image Turbo？ 如果你正在寻找一个能在个人电脑上流畅运行的文生图工具，WuliArt Qwen-Image Turbo可能是目前最合适的选择。这…

张开发

前端开发 2026/4/9 8:00:43

百川2-13B模型与卷积神经网络（CNN）结合：图像描述生成跨模态实践

百川2-13B模型与卷积神经网络（CNN）结合：图像描述生成跨模态实践你有没有想过，让AI不仅能“看见”图片，还能像人一样，把看到的东西用一段生动的文字描述出来？比如，给它一张夕阳下海…

张开发

前端开发 2026/4/10 13:54:38

Qwen3.5-2B赋能Node.js全栈开发：环境配置与API服务构建

Qwen3.5-2B赋能Node.js全栈开发：环境配置与API服务构建 1. 为什么选择Qwen3.5-2B辅助Node.js开发如果你是一名Node.js开发者，可能经常遇到这样的场景：想快速搭建一个服务原型，却要反复查阅文档；想实现某个功能&…

张开发

前端开发 2026/4/11 14:12:15

5分钟搞定！ClearerVoice-Studio语音降噪实战：一键去除会议录音杂音

5分钟搞定！ClearerVoice-Studio语音降噪实战：一键去除会议录音杂音 1. 为什么你需要专业语音降噪工具？ 想象一下：你刚结束一场线上会议，准备整理录音时发现背景里充斥着键盘敲击声、空调嗡嗡声和窗外车流声&#xff…

张开发

前端开发 2026/4/9 7:55:28

Windows Subsystem for Android：在Windows 11上运行Android应用的完整指南

Windows Subsystem for Android：在Windows 11上运行Android应用的完整指南【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA 想在Windows 11电脑上…

张开发

前端开发 2026/4/9 7:50:19

终极AnythingLLM部署指南：构建私有知识库AI助手的完整教程

终极AnythingLLM部署指南：构建私有知识库AI助手的完整教程【免费下载链接】anything-llm The all-in-one AI productivity accelerator. On device and privacy first with no annoying setup or configuration. 项目地址: https://gitcode.com/GitHub_Trending/…

张开发

前端开发 2026/4/10 16:43:34

终极指南：如何将Sublime Text 3转变为强大的Python开发IDE

终极指南：如何将Sublime Text 3转变为强大的Python开发IDE 【免费下载链接】anaconda Anaconda turns your Sublime Text 3 in a full featured Python development IDE including autocompletion, code linting, IDE features, autopep8 formating, McCabe complex…

张开发

前端开发 2026/4/9 7:37:29

千问3.5-2B轻量部署最佳实践：Docker容器资源限制+GPU显存预分配配置

千问3.5-2B轻量部署最佳实践：Docker容器资源限制GPU显存预分配配置 1. 千问3.5-2B模型简介千问3.5-2B是Qwen系列中的轻量级视觉语言模型，具备图片理解与文本生成能力。这个2B参数规模的模型在保持较高性能的同时，显著降低了部署门槛和资源…

张开发

前端开发 2026/4/9 7:36:16

终极指南：如何用Sphinx为GuiLite生成多格式文档

终极指南：如何用Sphinx为GuiLite生成多格式文档【免费下载链接】GuiLite ✔️The smallest header-only GUI library(4 KLOC) for all platforms 项目地址: https://gitcode.com/gh_mirrors/gu/GuiLite GuiLite是一款超轻量级的跨平台GUI库，仅4K…

张开发

前端开发 2026/4/10 21:34:14

OpenSC2K完整开发路线图：打造终极开源城市模拟体验的三大核心方向

OpenSC2K完整开发路线图：打造终极开源城市模拟体验的三大核心方向【免费下载链接】OpenSC2K OpenSC2K - An Open Source remake of Sim City 2000 by Maxis 项目地址: https://gitcode.com/gh_mirrors/op/OpenSC2K OpenSC2K是一款基于经典游戏《模拟城市200…

张开发

Linux 或者 Ubuntu 离线使用 vllm启动大模型

最新文章

一文搞懂 Python 的 GIL（全局解释器锁）

基于计算机视觉的路口交通密度估计

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

CKA-2026-Ingress

n8n实战指南：低代码自动化工作流从入门到精通

WuliArt Qwen-Image Turbo快速上手：一条命令启动Web界面，输入文字就出图

百川2-13B模型与卷积神经网络（CNN）结合：图像描述生成跨模态实践

Qwen3.5-2B赋能Node.js全栈开发：环境配置与API服务构建

5分钟搞定！ClearerVoice-Studio语音降噪实战：一键去除会议录音杂音

Windows Subsystem for Android：在Windows 11上运行Android应用的完整指南

终极AnythingLLM部署指南：构建私有知识库AI助手的完整教程

终极指南：如何将Sublime Text 3转变为强大的Python开发IDE

千问3.5-2B轻量部署最佳实践：Docker容器资源限制+GPU显存预分配配置

终极指南：如何用Sphinx为GuiLite生成多格式文档

OpenSC2K完整开发路线图：打造终极开源城市模拟体验的三大核心方向

Linux 或者 Ubuntu 离线使用 vllm启动大模型

最新文章

一文搞懂 Python 的 GIL（全局解释器锁）

基于计算机视觉的路口交通密度估计

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南