1.
准备与环境确认
- 确认使用的是韩国 CN2 路由线路(必要时查看云商控制面板或合约说明)。
- 准备SSH、控制台(VNC/Serial)、以及能执行 traceroute/mtr/tcpdump 的权限。
- 记录故障时间、影响范围(单台/多台)、是否在维护窗口。
2.
第一步:判断是网络层还是主机层故障
- 操作:从本地或跳板机对目标IP执行 ping(5-10 次)和 traceroute(或 mtr)。示例:mtr -rwzbc100 目标IP。
- 判断:若 traceroute 在骨干网络段出现丢包/超时(尤其在到达 CN2 边缘节点时),倾向于上游线路问题;若到达宿主机IP通畅但虚机不通,则为主机/虚机问题。
3.
第二步:检查KVM控制台和宿主机状态
- 登录云商控制面板,打开 VNC/Serial 控制台,查看是否能访问虚机控制台。
- 若控制台黑屏或卡在引导,尝试重置虚机电源(软重启->硬重启)。记录Console日志和错误信息。
4.
第三步:操作系统层网络检查
- 登录虚机(若可),执行:ip addr / ip route / ss -tunlp / iptables -L 或 nft list ruleset。
- 检查网卡状态:ip link show eth0;若 DOWN:ip link set eth0 up。
- 检查默认路由和DNS:cat /etc/resolv.conf;route -n 或 ip route show。
5.
第四步:MTU与分包问题排查
- CN2 常见:PMTUD 导致大包丢失。测试:ping -M do -s 1472 <目标>(Linux)。逐步减小直到通。
- 临时修复:ip link set dev eth0 mtu 1400(或合适值)。若有效,写入网络配置以持久化。
6.
第五步:抓包定位(tcpdump)
- 在虚机与宿主(若有权限)分别抓包:tcpdump -i eth0 -s 0 -w /tmp/cap.pcap host 目标IP。
- 检查三次握手是否完成、是否有RST、ICMP不可达或丢包位置。将 pcap 下载并用 Wireshark/MTR 分析。
7.
第六步:防火墙与安全组规则核查
- 云商管理平台核查安全组与出口策略是否误阻:放通常用端口(22/80/443/自定义端口)。
- 本机核查:iptables -S / nft list ruleset;systemctl status firewalld。临时允许:iptables -F(仅用于排查,注意安全)。
8.
第七步:磁盘/内存/CPU 资源检查
- 执行 top / free -m / df -h,确认是否因资源耗尽导致服务不可用。
- 若磁盘占满,清理 /var/log、tmp 或扩容云硬盘后调整分区并 mount。
9.
第八步:服务与进程恢复步骤
- 重启网络服务:systemctl restart network 或 /etc/init.d/networking restart(依据发行版)。
- 重启应用进程:systemctl restart nginx/mysql 等;查看 journalctl -u 服务名 -b。若配置错误导致服务重启失败,回滚配置文件或使用备份。
10.
第九步:宿主机/虚拟化层问题处理(需云商配合)
- 若怀疑宿主节点(例如多个VM同时异常),提交工单请求云商检查宿主节点的 libvirt/qemu 状态、物理网卡与交换机日志。
- 提交时附上时间戳、虚机ID、宿主机ID、控制台截图、抓包文件与 traceroute 输出。
11.
第十步:回滚策略与快照使用
- 若频繁因操作导致网络不可用,使用云快照回滚到最近稳定点。
- 操作前务必备份配置和重要数据,执行快照后先在隔离网络中验证再放回生产。
12.
第十一步:常见问题快速修复清单
- 无法ping通但控制台可登录:重启网络服务或设置正确路由。
- 大包丢失/慢速:调整MTU到1400/1420,或要求运营商检查PMTUD。
- DNS 解析失败:改用公共DNS(8.8.8.8/1.1.1.1)并排查 /etc/resolv.conf。
- 防火墙误阻:临时清空规则确认问题后有选择地恢复。
13.
第十二步:联系支持与提供工单要点
- 必备信息:虚机ID、IP、故障开始时间、影响范围、已做过的排查步骤与命令输出(traceroute、mtr、tcpdump、console log)。
- 建议附上PCAP文件和控制台截图,明确请求(例如“请检查韩国 CN2 出口到目标 ISP 的丢包”)。
14.
问:遇到韩国 CN2 路由在中间丢包怎么办?
- 一般先确认是否为PMTUD或特定中间节点丢包。可用 mtr 定位到哪一跳开始丢包,然后联系云商与上游运营商排查,并在短期内尝试调整 MTU 或更换线路(例如切换到非CN2或指定出口)。
15.
答:需要提供哪些日志给云商支持?
- 提供 traceroute/mtr 输出、从虚机和宿主抓取的 tcpdump pcap、控制台日志截图、systemctl/journalctl 中的时间段日志以及故障时间点。越详细越有助于快速定位上游或宿主侧问题。
16.
问:如果虚机无法启动但宿主运行正常,我自己能做哪些修复?
- 通过控制台进入救援模式,挂载磁盘检查 /etc/network/interfaces 或 netplan 配置,修复错误后重启。若无法修复,使用云端快照或备份恢复到上一个可用快照,然后在恢复环境中逐步恢复服务。
来源:常见故障解析韩国 cn2 kvm 的排查与修复流程