ollama 开启GPU加速

张开发
2026/4/15 3:30:09 15 分钟阅读

分享文章

ollama 开启GPU加速
本地ollama跑大模型简单问题qwen3.5:2b 执行了27秒llama3.2:3b执行了17秒若通过openclaw去跑时间更久并且占用CPU过大导致 大模型超时宕机此问题十份头疼。考虑GPU加速以提升整体性能。性能溯源不考虑学习理论直接跳过此章节大模型推理本质是海量矩阵乘法 大量重复并行计算CPU 擅长串行逻辑GPU 擅长并行计算两者天生效率差一个数量级。1. 大模型到底在算什么Transformer 模型推理主要做三件事矩阵乘法MatMul张量运算激活函数、归一化等这些运算有两个特点计算量极大哪怕 2B/3B 小模型一次生成也要几十亿次浮点运算。高度可并行不同神经元、不同 token 的计算互相独立可以同时算。2. CPU 为什么慢、还容易卡死CPU 核心少通常 8/12/16 核擅长复杂逻辑不擅长并行算数大模型一来CPU 只能排队算导致推理极慢你看到 17~27 秒占用 100%内存 / 缓存爆了 → 超时、宕机再加 OpenClaw 做代理、封装、转发 → 多一层开销 → 更慢更卡3. GPU 为什么能瞬间提速GPU 的设计就是为了并行计算几千上万个 小计算核心CUDA 核心专门对矩阵乘法、张量运算做了硬件优化一次能同时算成千上万次乘法加法对比CPU像一个教授慢慢算复杂题GPU像一万个小学生同时算加减乘除大模型推理刚好是后者的完美场景。4.开启开启GPU加速会发生什么作用是强制 Ollama 把模型加载到显存把矩阵计算交给 CUDA 核心 而不是 CPU数据在显存里高速读写不走慢得多的内存 / 系统总线结果就是速度提升 几倍几十倍CPU 占用瞬间下降不会因为 CPU 满载而超时宕机OpenClaw 转发时压力也小很多检查并安装环境执行大模型时查看GPU使用情况windows powerShell下查看Ollama 版的「任务管理器」ollama ps # 1秒刷新一次 ollama ps盯着 PROCESSOR 列 while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }执行大模型后发现PROCESSOR状态为CPU100%证明GPU未开启接下来具体查看原因Ollama 0.20.5 Windows 最低要求NVIDIA驱动 ≥ 535.xx、CUDA 计算能力 ≥ 5.0GTX 1060 及以上AMD需要 ROCm 6.2 支持仅限新卡显存 ≥ 4GB2B 模型最低查询本机ollama版本ollama --version查询NVIDIA版本nvidia-smiNAVIDIA驱动版本低找匹配型号我的电脑属性设备管理器网络适配器具体型号下载官方驱动下载地址AI跑大模型要求GameReady驱动选择对应版本下载默认升级安装驱动配置 Ollama GPU 环境变量右键右下角 Ollama 托盘图标 → 选择 Quit完全退出服务按 Win R输入 sysdm.cpl 回车打开系统属性切换到「高级」选项卡 → 点击「环境变量」在下方「系统变量」区域点击「新建」添加 1 个关键变量变量名OLLAMA_CUDA变量值1点击「确定」保存所有设置必须重启电脑环境变量才会生效1.OLLAMA_CUDA1作用强制 Ollama 启用 CUDA GPU 加速是让 Ollama 识别 NVIDIA 显卡的关键开关。2.OLLAMA_HOST0.0.0.0作用将 Ollama 服务绑定到所有网络接口允许局域网内其他设备如手机、另一台电脑访问你的 Ollama 服务。3.OLLAMA_NUM_CTX16384作用设置模型的上下文窗口大小Context Window单位是 token决定模型能记住的对话长度。4.OLLAMA_NUM_GPU1作用指定 Ollama 使用的 GPU 数量单显卡填 1多显卡按实际数量填写。重启 Ollama 并验证 GPU 加速重启电脑后打开 PowerShell 执行ollama run qwen3.5:2b while($true) { cls; ollama ps; Start-Sleep -Seconds 4 }整个问题Ollama思考3.8秒GPU加速完成。

更多文章