先做对比测试,排除本地环境影响。用受控客户端在不同时间段对同一目的地做连续的ping、MTR(或traceroute -T)检测,记录RTT、延迟抖动(jitter)和丢包率。如果同一路径在内网和不同出口(如从另一家ISP或回国直连)表现一致,则倾向于目标或中间链路问题;若只有通过CN2出口出现异常,则可能与CN2路由相关。
1) 本地端:关闭防火墙、QoS、负载均衡器,直接一台设备发起测试。 2) 多点验证:从不同机房/不同带宽出口(非CN2)对比。 3) 时间分布:在高峰与非高峰时段各做长时段(10~60分钟)测试,观察是否为间歇性抖动或持续性丢包。
若丢包在路径早期(靠近本地)出现,首要排查本地链路;若丢包或高抖动集中在跨国跳点(traceroute显示突增延迟或*),则应重点关注CN2所经过的中间ASN或国际链路。
推荐工具:MTR(或WinMTR)、traceroute(TCP/UDP/ICMP变种)、ping、iperf3(带宽与丢包)、tcpdump或Wireshark(抓包)、BGP looking glass和路由可视化平台。关键指标包括平均RTT、95/99百分位延迟、抖动(jitter)、链路端到端丢包率以及丢包分布(集中在某一跳或持续跨多跳)。
MTR能同时给出延迟与逐跳丢包率:观察丢包是在某一跳开始并持续,还是只在末跳出现(末跳丢包常为主机ICMP限速而非真实转发丢包)。traceroute可用TCP/UDP选项模拟真实业务端口,避免ICMP被过滤。
使用tcpdump抓取SYN/ACK或业务流量,可以看到重传、重复ACK或MTU碎片问题。iperf3在双向测试中能检测链路饱和导致的抖动与丢包,注意测试时排除本地限速。
首先查询目的IP的BGP路由路径(通过公网Looking Glass或bgp.he.net)。观察是否存在绕行、AS PATH频繁变化或多路径不稳定。若CN2经过的中间ASN在不同时间段切换,可能是BGP策略或会话flap导致的路径抖动,从而引起延迟波动和丢包。
1) 路径变化频繁(Path Flap):会造成包转发短暂错误或丢失。 2) 次优绕行(Suboptimal Routing):路径跳数或延迟突然上升,可能是流量被引导到远端中转。 3) 对等点问题:某一IX或对等点拥塞会导致跨该点的包大量丢弃。
记录问题时间窗口、traceroute跳点和对应ASN,结合BGP收敛日志(若能访问)与ISP提供的路由历史,找出发生异常的AS或对等交换点并向承运ISP/对端提供证据。
短时拥塞常表现为在高并发或带宽占满时抖动和丢包上升,iperf3并发测试可以再现:当带宽利用率接近链路速率时,延迟和丢包会明显增长。链路物理错误(如光纤坏帧、SFP问题)通常在所有流量类型下都表现出随机或周期性丢包,并可能伴随CRC错误、接口重置或速率下降。
1) 在非高峰期进行低速率长时测试,若仍有丢包,则倾向于链路质量或设备故障。2) 检查接口错误计数(ifconfig/ethtool或交换机日志)是否有CRC、frame或collisions。3) 要求机房/上游检查光链路质量(BER、OLT/ONT告警)与SFP模块。
带宽拥塞的证据:在高利用率时可复现,且丢包随流量增长;物理故障证据:接口错误计数异常、链路两端对时出现同步重置或外部监控告警。
准备结构化的诊断包:包含问题发生时间段的MTR/traceroute日志(带时间戳)、连续ping丢包统计、iperf3测试结果、tcpdump抓包(示例重传/重复ACK/icmp unreachable)、BGP路由表快照与AS PATH、以及交换机/路由器接口错误计数截图或log。明确标注源IP、目标IP、端口、测试时区与时间戳。
提供对比测试(正常时间与异常时间),说明复现步骤与受影响服务,附上traceroute中首个出现丢包或延迟突增的跳点及对应ASN,要求ISP在该时段内检查该ASN到其交换点的链路和路由会话。必要时请求对方在核心节点开启抓包或流量镜像。
使用图表展示延迟与丢包随时间的变化(PNG/JPEG),并把证据文件打包为压缩包上传至工单系统;在工单中给出明确的期望(如希望在24小时内完成链路链路检查并反馈交换点日志)。