手把手教你用命令行搞定ESXi主机维护模式失败(附排查清单)

张开发
2026/4/20 11:48:20 15 分钟阅读

分享文章

手把手教你用命令行搞定ESXi主机维护模式失败(附排查清单)
命令行实战ESXi主机维护模式失败排查全指南引言在虚拟化环境中ESXi主机的维护模式是系统管理员进行硬件更换、软件升级或故障排查时的关键操作。然而当虚拟机状态异常或DRS功能关闭时主机可能拒绝进入维护模式此时图形界面往往束手无策。本文将深入探讨如何通过SSH命令行工具结合vim-cmd和esxcli等强大命令集系统性地诊断和解决维护模式进入失败的问题。1. 维护模式失败的核心原因分析维护模式进入失败通常不是孤立问题而是系统状态的综合反映。理解其根本原因有助于快速定位问题虚拟机状态异常约78%的维护模式失败案例与虚拟机状态有关存储连接问题数据存储不可达会导致虚拟机标记为无效资源锁定冲突VMX文件或虚拟机进程被异常锁定后台任务阻塞迁移或快照操作未完成会阻止模式切换提示维护模式本质是主机排空过程任何阻碍虚拟机完全停止的因素都会导致失败常见错误信息与对应问题错误提示可能原因检查方向Another task in progress后台任务未完成ps -cInvalid state for this operation虚拟机状态不一致vim-cmd vmsvc/getallvmsFile is locked存储层锁定vmkfstools -D /vmfs/volumes/...2. 虚拟机状态深度排查2.1 识别异常虚拟机首先获取完整的虚拟机清单vim-cmd vmsvc/getallvms | awk {print $1,$2} | grep -v Vmid典型异常状态包括孤立虚拟机存在于vCenter但不在主机清单无效虚拟机配置文件损坏或存储不可达僵尸进程已删除但进程仍在运行检查进程级状态esxcli vm process list | grep -E World ID|Display Name2.2 处理不同异常状态的策略孤立虚拟机处理流程确认存储位置find /vmfs/volumes -name *.vmx检查注册状态vim-cmd vmsvc/getallvms | grep vmname重新注册或移除vim-cmd solo/registervm /vmfs/volumes/datastore1/vm/vm1.vmx无效虚拟机解决方案配置文件锁定vmfsfilelockinfo /vmfs/volumes/.../vm1.vmx配置语法错误tail -n50 /var/log/hostd.log | grep Syntax error存储连接问题esxcli storage core path list3. 强制终止顽固进程当常规关机命令失效时需要层级式终止尝试软关机vim-cmd vmsvc/power.off vmid硬终止命令esxcli vm process kill --typehard --world-idworldid最终强制措施esxcli vm process kill --typeforce --world-idworldid注意force模式可能导致数据不一致应优先尝试其他方式进程状态验证命令watch -n 1 esxcli vm process list | grep -A 3 vmname4. 维护模式完整操作流程4.1 预处理检查清单执行前必须验证存储连接状态esxcli storage filesystem listDRS自动化级别vim-cmd hostsvc/cluster/get.drsstatus任务管理器状态vim-cmd vimsvc/task_list4.2 多方法进入维护模式方法一标准命令vim-cmd /hostsvc/maintenance_mode_enter方法二ESXCLI方式esxcli system maintenanceMode set --enable true方法三低层API调用vimsh -n -e /hostsvc/maintenance_mode_enter验证命令vim-cmd /hostsvc/hostsummary | grep inMaintenanceMode4.3 典型问题解决方案场景1存储连接中断检查HBA状态esxcli storage core adapter list重新扫描存储esxcli storage core adapter rescan --all验证VMFS挂载vmkfstools -P /vmfs/volumes/datastore场景2vCenter通信故障检查服务状态service-control --status --all重启管理代理service-control --restart hostd直接主机操作chmod 600 /etc/vmware/hostd/authorization.xml5. 高级诊断与日志分析5.1 关键日志定位技巧hostd.logtail -f /var/log/hostd.log | grep -i maintenancevmkernel.loggrep VMFS /var/log/vmkernel.logvpxa.logless /var/log/vpxa.log | grep Task in progress日志分析命令示例cat /var/log/hostd.log | awk /Failed to power off VM/{print $0} | sort | uniq -c | sort -nr5.2 性能影响评估维护模式操作期间监控指标esxtop -b -d 2 -n 10 | awk /MEM|CPU|DISK/{print $0} /tmp/perf_$(date %s).csv关键阈值监控CPU就绪时间 5%内存交换 1%存储延迟 20ms6. 自动化运维实践6.1 脚本化预处理维护模式准备脚本示例#!/bin/bash # 检查虚拟机状态 VMS$(vim-cmd vmsvc/getallvms | awk {print $1} | grep -v Vmid) for VM in $VMS; do STATE$(vim-cmd vmsvc/power.getstate $VM | grep Powered) if [[ $STATE *on* ]]; then vim-cmd vmsvc/power.off $VM fi done # 检查存储连接 STORAGE$(esxcli storage filesystem list | grep -c mounted) if [ $STORAGE -eq 0 ]; then echo Storage not ready 2 exit 1 fi # 进入维护模式 vim-cmd /hostsvc/maintenance_mode_enter6.2 PowerCLI集成方案Windows端自动化脚本Connect-VIServer -Server esxi01.example.com $HostSystem Get-VMHost | Where { $_.Name -eq esxi01.example.com } if ($HostSystem.ConnectionState -ne Maintenance) { $VMs Get-VM -Location $HostSystem | Where { $_.PowerState -eq PoweredOn } $VMs | Shutdown-VMGuest -Confirm:$false do { Start-Sleep -Seconds 5 $ActiveTasks Get-Task -Status Running } while ($ActiveTasks) Set-VMHost -VMHost $HostSystem -State Maintenance }7. 恢复与验证退出维护模式后的必要检查服务完整性验证service-control --status --all | grep running存储重新挂载esxcfg-volume -l虚拟机自动启动配置vim-cmd hostsvc/autostartmanager/get_autostartseq性能基准测试命令esxcli network nic list | grep Up esxcli storage core device list | grep Online

更多文章