百川2-13B-4bits量化版保姆级教程:nvidia-smi监控、端口诊断、防火墙开放全步骤详解

张开发
2026/4/13 2:49:11 15 分钟阅读

分享文章

百川2-13B-4bits量化版保姆级教程:nvidia-smi监控、端口诊断、防火墙开放全步骤详解
百川2-13B-4bits量化版保姆级教程nvidia-smi监控、端口诊断、防火墙开放全步骤详解1. 项目介绍为什么选择百川2-13B-4bits如果你正在寻找一个能在消费级显卡上流畅运行的中文大语言模型百川2-13B-Chat-4bits绝对值得你花时间了解。这个版本最大的亮点就是亲民——它把原本需要大量显存的大模型压缩到了普通玩家也能轻松驾驭的程度。1.1 模型的核心优势让我用大白话给你解释一下这个模型到底厉害在哪里显存占用大幅降低原始13B模型需要约26GB显存4bits量化版只需要约10GB显存节省了60%以上的显存这意味着什么意味着你不需要花几万块钱买专业计算卡用一张RTX 3090、RTX 4090这样的消费级显卡就能跑起来。对于个人开发者、小团队、学生党来说这简直是福音。性能损失微乎其微很多人担心量化会严重影响模型效果但百川的这个4bits版本做得相当不错在大多数中文任务上性能下降只有1-2个百分点日常对话、代码生成、写作辅助等场景几乎感觉不到差异英文能力也保持得不错中英双语都能处理开箱即用的Web界面项目自带Gradio WebUI你不需要懂复杂的API调用打开浏览器就能直接对话。界面简洁直观特别适合新手快速上手。1.2 技术规格一览项目具体信息说明模型名称Baichuan2-13B-Chat-4bits对话专用版本参数量130亿中等规模效果和速度平衡量化方法NF4量化当前最先进的4bit量化技术显存需求~10GBRTX 3080以上显卡都能跑支持语言中文为主英文良好中文优化特别好商用许可可申请商用企业用户也能用Web端口7860默认访问端口1.3 适合哪些人使用个人开发者/研究者想本地部署大模型做实验需要保护数据隐私本地运行不外传预算有限买不起A100/H100中小企业/创业团队需要智能客服、内容生成等AI能力希望控制成本按需使用对响应速度有要求本地部署延迟低学生/教育用户学习大模型技术做课程项目、毕业设计研究Prompt EngineeringAI爱好者想体验最新的大模型技术喜欢折腾享受部署过程需要稳定的本地AI助手2. 环境准备与快速部署2.1 硬件要求检查在开始之前先确认你的硬件是否达标# 检查GPU信息 nvidia-smi你应该能看到类似这样的输出--------------------------------------------------------------------------------------- | NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 | |------------------------------------------------------------------------------------- | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | | | 0 NVIDIA GeForce RTX 4090 On | 00000000:01:00.0 Off | Off | | 0% 38C P8 15W / 450W | 0MiB / 24576MiB | 0% Default | | | | N/A | -------------------------------------------------------------------------------------关键指标要看这些显存大小至少10GB推荐12GB以上CUDA版本11.8或以上驱动版本535.x或以上如果你的显存不够可以尝试以下方法关闭其他占用显存的程序调整batch size如果有相关设置考虑使用云服务器按小时计费成本可控2.2 系统环境配置Python环境# 检查Python版本 python3 --version # 需要Python 3.8-3.11推荐3.10 # 检查pip pip3 --version # 如果有conda建议创建虚拟环境 conda create -n baichuan python3.10 conda activate baichuan磁盘空间检查# 检查可用空间 df -h /root # 模型文件约8GB加上依赖需要15GB左右空间网络连接测试# 测试能否访问GitHub下载依赖需要 ping -c 3 github.com # 测试能否访问Hugging Face下载模型需要 ping -c 3 huggingface.co2.3 一键部署脚本如果你使用的是预配置的镜像或环境通常已经包含了部署脚本。这里我提供一个完整的检查清单#!/bin/bash # baichuan-deploy-check.sh echo 百川2-13B部署前检查 # 1. 检查GPU echo 1. 检查GPU... nvidia-smi --query-gpuname,memory.total,driver_version --formatcsv # 2. 检查CUDA echo -e \n2. 检查CUDA... nvcc --version 2/dev/null || echo CUDA未安装或未在PATH中 # 3. 检查Python echo -e \n3. 检查Python环境... python3 --version pip3 --version # 4. 检查端口占用 echo -e \n4. 检查7860端口... netstat -tulpn | grep :7860 || echo 7860端口空闲 # 5. 检查目录权限 echo -e \n5. 检查项目目录... if [ -d /root/baichuan2-13b-webui ]; then echo 项目目录存在 ls -la /root/baichuan2-13b-webui/ else echo 项目目录不存在需要创建 fi # 6. 检查防火墙 echo -e \n6. 检查防火墙状态... if command -v ufw /dev/null; then ufw status | grep 7860 || echo 7860端口未在防火墙规则中 elif command -v firewall-cmd /dev/null; then firewall-cmd --list-ports | grep 7860 || echo 7860端口未开放 else echo 未检测到常见防火墙请手动检查iptables fi echo -e \n 检查完成 保存这个脚本为check_deploy.sh然后运行chmod x check_deploy.sh ./check_deploy.sh3. 服务状态监控与诊断3.1 nvidia-smi监控详解nvidia-smi是你最好的GPU监控工具但很多人只会看显存占用。让我教你如何真正看懂它基础监控命令# 最简单的查看 nvidia-smi # 每2秒刷新一次按CtrlC停止 watch -n 2 nvidia-smi # 只显示关键信息 nvidia-smi --query-gputimestamp,name,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used,temperature.gpu --formatcsv -l 1看懂关键指标当你运行百川模型时nvidia-smi的输出应该类似这样----------------------------------------------------------------------------- | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | || | 0 N/A N/A 12345 C ...python3 10240MiB | -----------------------------------------------------------------------------各列含义GPUGPU编号多卡时重要PID进程IDType进程类型C计算Process name进程名称GPU Memory Usage显存使用量常见问题诊断问题1显存占用高但GPU利用率低GPU-Util: 15% Memory-Usage: 21500MiB / 24576MiB (87.5%)这说明模型已经加载到显存但当前没有在进行推理计算。这是正常现象——模型加载后就会占用显存只有生成文本时利用率才会升高。问题2多个进程占用显存Process name GPU Memory ...python3 10240MiB ...another_process 5120MiB如果有其他进程占用了显存百川可能无法启动。解决方法# 查看所有GPU进程 fuser -v /dev/nvidia* # 结束不需要的进程谨慎操作 kill -9 PID问题3温度过高Temp: 85°CGPU温度长期超过80°C可能影响稳定性。解决方法改善机箱散热降低环境温度考虑使用功耗限制如果有相关设置3.2 端口诊断全攻略端口问题是新手最常遇到的坑。让我带你一步步排查第一步检查服务是否在运行# 方法1使用项目自带的检查脚本 /root/baichuan2-13b-webui/check.sh # 方法2直接检查进程 ps aux | grep baichuan | grep -v grep # 方法3检查Supervisor状态 supervisorctl status baichuan-webui第二步检查端口是否监听# 查看7860端口状态 netstat -tulpn | grep :7860 # 或者用lsof更详细 lsof -i :7860正常情况应该看到tcp 0 0 0.0.0.0:7860 0.0.0.0:* LISTEN 12345/python关键信息解读0.0.0.0:7860监听所有IP的7860端口LISTEN正在监听12345/python进程ID和名称如果看不到这个输出说明服务没启动或端口被占用。第三步测试本地访问# 测试本地能否访问 curl -v http://127.0.0.1:7860 # 或者用更简单的方法 wget -qO- http://127.0.0.1:7860 | head -5如果本地能访问但外部不能问题很可能在防火墙。3.3 防火墙配置详解防火墙问题让很多人头疼其实搞清楚原理就很简单了。先确定你的系统用什么防火墙# 检查系统防火墙类型 # Ubuntu/Debian通常用ufw which ufw # CentOS/RHEL通常用firewalld which firewall-cmd # 或者直接看iptables底层 iptables -L -n | grep 7860情况1使用ufwUbuntu/Debian# 查看状态 sudo ufw status # 开放7860端口 sudo ufw allow 7860/tcp # 或者更精确地指定 sudo ufw allow from any to any port 7860 proto tcp # 重新加载规则 sudo ufw reload # 验证规则 sudo ufw status numbered情况2使用firewalldCentOS/RHEL# 查看状态 sudo firewall-cmd --state # 开放端口 sudo firewall-cmd --permanent --add-port7860/tcp # 重新加载 sudo firewall-cmd --reload # 查看已开放端口 sudo firewall-cmd --list-ports情况3直接配置iptables通用方法# 临时开放重启失效 sudo iptables -I INPUT -p tcp --dport 7860 -j ACCEPT # 永久保存不同系统方法不同 # Ubuntu/Debian sudo netfilter-persistent save # CentOS/RHEL 7 sudo service iptables save # 或者安装iptables-persistent sudo apt-get install iptables-persistent sudo netfilter-persistent save情况4云服务器安全组如果你用的是阿里云、腾讯云、AWS等云服务器还需要配置安全组登录云控制台找到安全组或防火墙设置添加入站规则协议TCP端口7860源0.0.0.0/0或指定IP保存并应用一个完整的防火墙检查脚本#!/bin/bash # firewall-check.sh echo 防火墙状态检查 # 检查端口监听 echo 1. 检查7860端口监听状态... netstat -tulpn | grep :7860 # 检查本地访问 echo -e \n2. 测试本地访问... timeout 3 curl -s http://127.0.0.1:7860 /dev/null if [ $? -eq 0 ]; then echo ✅ 本地访问正常 else echo ❌ 本地访问失败服务可能未启动 fi # 检查外部访问需要知道服务器IP SERVER_IP$(hostname -I | awk {print $1}) echo -e \n3. 服务器IP: $SERVER_IP # 检查常见防火墙 echo -e \n4. 检查防火墙配置... # ufw if command -v ufw /dev/null; then echo 检测到ufw: sudo ufw status | grep 7860 echo ✅ 7860端口已开放 || echo ❌ 7860端口未在ufw规则中 fi # firewalld if command -v firewall-cmd /dev/null; then echo 检测到firewalld: sudo firewall-cmd --list-ports | grep 7860 echo ✅ 7860端口已开放 || echo ❌ 7860端口未在firewalld规则中 fi # iptables echo 检查iptables规则: sudo iptables -L INPUT -n | grep 7860 echo ✅ 7860端口在iptables规则中 || echo ❌ 7860端口未在iptables规则中 echo -e \n 检查完成 echo 如果本地能访问但外部不能请根据上面的检查结果配置防火墙4. 服务管理与故障排除4.1 服务生命周期管理启动服务# 如果使用Supervisor推荐 sudo supervisorctl start baichuan-webui # 或者直接启动调试用 cd /root/baichuan2-13b-webui python app.py停止服务# 优雅停止 sudo supervisorctl stop baichuan-webui # 强制停止如果优雅停止失败 sudo supervisorctl stop baichuan-webui sudo pkill -f baichuan重启服务# 完全重启 sudo supervisorctl restart baichuan-webui # 或者先停后启 sudo supervisorctl stop baichuan-webui sleep 5 sudo supervisorctl start baichuan-webui查看服务状态# 详细状态 sudo supervisorctl status baichuan-webui # 查看所有服务 sudo supervisorctl status all4.2 日志分析与问题诊断日志是你最好的朋友遇到问题先看日志。实时查看日志# 查看最新日志实时刷新 tail -f /root/baichuan2-13b-webui/logs/access.log # 查看错误日志 tail -f /root/baichuan2-13b-webui/logs/error.log # 查看Supervisor日志 tail -f /var/log/supervisor/baichuan-webui-stderr*.log常见错误及解决方法错误1CUDA out of memoryRuntimeError: CUDA out of memory. Tried to allocate 2.00 MiB (GPU 0; 10.00 GiB total capacity; 9.80 GiB already allocated; 0 bytes free; 9.82 GiB reserved in total by PyTorch)解决方法检查是否有其他进程占用显存nvidia-smi # 如果有其他进程考虑停止它们重启服务释放显存sudo supervisorctl restart baichuan-webui如果问题持续尝试减小batch size如果有相关设置错误2端口已被占用OSError: [Errno 98] Address already in use解决方法# 查看哪个进程占用了7860端口 sudo lsof -i :7860 # 停止占用进程如果不是重要服务 sudo kill -9 PID # 或者换个端口启动 # 修改配置文件中的端口号然后重启错误3模型加载失败Error loading model: ConnectionError...解决方法检查网络连接ping huggingface.co手动下载模型如果有离线包检查磁盘空间df -h /root错误4响应速度慢请求超时或响应很慢解决方法检查GPU利用率nvidia-smi -l 1 # 每秒刷新一次检查CPU和内存top检查网络延迟尝试减小max_tokens参数4.3 性能优化建议GPU优化# 设置GPU内存增长避免一次性占用所有显存 export PYTORCH_CUDA_ALLOC_CONFmax_split_size_mb:128 # 使用更高效的计算库 pip install flash-attn --no-build-isolationWebUI优化启用队列处理如果支持设置超时时间避免长时间等待使用缓存减少重复计算系统优化# 调整系统交换空间如果内存不足 sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile # 添加到fstab永久生效 echo /swapfile none swap sw 0 0 | sudo tee -a /etc/fstab5. 高级使用技巧5.1 监控脚本编写创建一个自动监控脚本定期检查服务状态#!/bin/bash # monitor-baichuan.sh LOG_FILE/var/log/baichuan-monitor.log STATUS_FILE/tmp/baichuan-status.txt # 检查服务状态 check_service() { echo [$(date %Y-%m-%d %H:%M:%S)] 检查百川服务状态... # 检查进程 if pgrep -f baichuan /dev/null; then echo ✅ 百川进程运行正常 else echo ❌ 百川进程未运行尝试重启... sudo supervisorctl start baichuan-webui fi # 检查端口 if netstat -tulpn | grep :7860 /dev/null; then echo ✅ 7860端口监听正常 else echo ❌ 7860端口未监听 fi # 检查GPU GPU_INFO$(nvidia-smi --query-gpuutilization.gpu,memory.used,memory.total,temperature.gpu --formatcsv,noheader) echo GPU状态: $GPU_INFO # 检查响应 RESPONSE_TIME$(timeout 5 curl -o /dev/null -s -w %{time_total} http://127.0.0.1:7860 || echo timeout) echo ⏱️ 响应时间: ${RESPONSE_TIME}s } # 记录到日志 check_service $LOG_FILE 21 # 保存状态文件 check_service $STATUS_FILE # 如果日志文件太大清理旧日志 if [ -f $LOG_FILE ] [ $(wc -l $LOG_FILE) -gt 1000 ]; then tail -500 $LOG_FILE ${LOG_FILE}.tmp mv ${LOG_FILE}.tmp $LOG_FILE fi echo 监控完成详情查看: $LOG_FILE设置定时任务每5分钟检查一次# 编辑crontab crontab -e # 添加以下行 */5 * * * * /path/to/monitor-baichuan.sh5.2 备份与恢复备份配置#!/bin/bash # backup-baichuan.sh BACKUP_DIR/backup/baichuan DATE$(date %Y%m%d_%H%M%S) # 创建备份目录 mkdir -p $BACKUP_DIR/$DATE # 备份配置文件 cp -r /root/baichuan2-13b-webui/config $BACKUP_DIR/$DATE/ cp -r /root/baichuan2-13b-webui/models $BACKUP_DIR/$DATE/ # 备份Supervisor配置 cp /etc/supervisor/conf.d/baichuan-webui.conf $BACKUP_DIR/$DATE/ # 备份日志可选 cp -r /root/baichuan2-13b-webui/logs $BACKUP_DIR/$DATE/ # 创建压缩包 tar -czf $BACKUP_DIR/baichuan_backup_$DATE.tar.gz -C $BACKUP_DIR/$DATE . # 清理临时目录 rm -rf $BACKUP_DIR/$DATE echo 备份完成: $BACKUP_DIR/baichuan_backup_$DATE.tar.gz恢复配置#!/bin/bash # restore-baichuan.sh BACKUP_FILE$1 RESTORE_DIR/tmp/baichuan_restore if [ -z $BACKUP_FILE ]; then echo 请指定备份文件 echo 用法: $0 /path/to/backup.tar.gz exit 1 fi # 停止服务 sudo supervisorctl stop baichuan-webui # 解压备份 mkdir -p $RESTORE_DIR tar -xzf $BACKUP_FILE -C $RESTORE_DIR # 恢复文件 cp -r $RESTORE_DIR/config /root/baichuan2-13b-webui/ cp -r $RESTORE_DIR/models /root/baichuan2-13b-webui/ cp $RESTORE_DIR/baichuan-webui.conf /etc/supervisor/conf.d/ # 重新加载Supervisor sudo supervisorctl reread sudo supervisorctl update # 启动服务 sudo supervisorctl start baichuan-webui # 清理 rm -rf $RESTORE_DIR echo 恢复完成服务已重启5.3 多用户访问配置如果你需要让团队其他成员也能访问可以考虑以下配置Nginx反向代理推荐# /etc/nginx/sites-available/baichuan server { listen 80; server_name baichuan.yourdomain.com; location / { proxy_pass http://127.0.0.1:7860; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; # WebSocket支持 proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection upgrade; # 超时设置 proxy_connect_timeout 60s; proxy_send_timeout 60s; proxy_read_timeout 60s; } # 限制访问频率 limit_req_zone $binary_remote_addr zonebaichuan:10m rate10r/s; limit_req zonebaichuan burst20 nodelay; }启用HTTPS使用Lets Encrypt# 安装Certbot sudo apt-get install certbot python3-certbot-nginx # 获取证书 sudo certbot --nginx -d baichuan.yourdomain.com # 自动续期测试 sudo certbot renew --dry-run基础认证简单密码保护# 创建密码文件 sudo apt-get install apache2-utils sudo htpasswd -c /etc/nginx/.htpasswd username # Nginx配置中添加 location / { auth_basic Restricted Access; auth_basic_user_file /etc/nginx/.htpasswd; proxy_pass http://127.0.0.1:7860; # ... 其他配置 }6. 总结通过这篇教程你应该已经掌握了百川2-13B-4bits量化版的完整部署、监控和故障排除流程。让我再帮你回顾一下关键点6.1 核心要点回顾硬件要求很简单一张10GB以上显存的显卡就能跑RTX 3080/3090/4090都可以部署不复杂项目提供了完整的WebUI不需要懂复杂的API调用监控很重要定期用nvidia-smi检查GPU状态用netstat检查端口防火墙是常见坑记得开放7860端口云服务器还要配置安全组日志是最好的调试工具遇到问题先看日志大多数错误都有明确提示6.2 日常维护建议每天检查# 快速健康检查 /root/baichuan2-13b-webui/check.sh # GPU状态 nvidia-smi # 服务状态 supervisorctl status baichuan-webui每周维护清理日志文件检查磁盘空间更新系统安全补丁备份重要配置每月维护检查模型更新评估性能表现优化参数配置测试备份恢复流程6.3 遇到问题怎么办按照这个排查流程90%的问题都能解决先看日志tail -f /root/baichuan2-13b-webui/logs/error.log检查服务状态supervisorctl status baichuan-webui检查端口netstat -tulpn | grep :7860检查GPUnvidia-smi检查防火墙sudo ufw status或sudo firewall-cmd --list-ports重启试试sudo supervisorctl restart baichuan-webui如果还是解决不了可以查看项目文档/root/docs/目录下的文件检查系统资源top、df -h、free -h搜索错误信息通常都有现成的解决方案6.4 最后的小贴士首次加载需要耐心模型第一次加载可能需要30秒到1分钟这是正常的温度参数很重要日常对话用0.7代码生成用0.2创意写作用1.0及时清理对话历史长时间对话会占用内存定期新建对话善用系统检查脚本check.sh是你的好帮手有问题先运行它考虑定时重启如果长时间运行可以设置每天自动重启一次释放内存百川2-13B-4bits是一个性价比很高的选择它在有限的显存下提供了不错的中文理解能力。希望这篇教程能帮你顺利部署和使用这个模型。如果在使用过程中遇到任何问题记得先看日志大多数问题都能在那里找到答案。祝你使用愉快获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章