在运维实践中,柬埔寨CN2线路常见故障通常表现为:高延迟、抖动、丢包、链路不稳定(路由抖动/频繁切换)、单向丢包或部分网段不可达、BGP会话断开或路由被劫持等。出现症状时应首先区分是链路问题还是应用/服务器问题(例如TCP三次握手失败、DNS解析超时等)。
常见识别要点包括:使用ping查看RTT与丢包率、使用traceroute或mtr定位丢包发生在哪一跳、检查BGP邻居状态、查看接口错误与丢包计数、核对防火墙/ACL是否误拦截。
重点监测延迟(RTT)、丢包率、BGP邻居刷新/重置次数、接口错误(CRC、输入丢弃)和路由表异常(大量withdraw或不正常的AS路径)。
建议采用“从本地到远端、从物理到逻辑、从网络到应用”的分层排查流程:1)物理层:检查光口/link灯、SFP模块、链路速率与双工;2)链路层:查看接口错误、丢包计数、MTU不匹配;3)路由层:核对BGP邻居、路由是否被错误注入或被策略拦截;4)传输/应用层:用tcpdump抓包看三次握手或重传。
常用工具与命令包括:ping、traceroute、mtr、tcpdump、iftop/sar、show interfaces、show ip bgp summary、bgp routes、looking glass(运营商提供)。通过这些工具可快速定位发生故障的链路段。
1. 本地ping与mtr到目标IP并记录时间段;2. traceroute到目标,标注首次高丢包跳点;3. 在本端与对端各自抓包定位是否为单向丢包;4. 检查BGP邻居是否稳定,查看路由是否发生异常波动;5. 与对端/运营商核对链路状态与最近维护记录。
快速修复分为“临时绕行”和“修复根因”两类。临时措施用于尽快恢复业务:切换到备用链路、调整BGP路由优先(preference/AS-path prepending、MED)、启用本地或云端备份节点、降低DNS TTL以便切换IP、临时修改防火墙策略放行异常端口。
例如在路由器上可使用:
set ip route / neighbor route-map(视设备而定)进行流量重定向,或通过社区/AS-path预置迫使流量走备路径。临时动作需要记录并在故障平稳后恢复配置。
根因修复包括更换损坏的光模块、修复物理链路、与运营商协商清除路由黑洞、优化BGP策略以防止路由振荡、修复设备硬件或升级固件以避免复现。
一个完整的应急预案应包含:联络人清单(内部+运营商)、故障分级与SLA响应时限、快速旁路策略(备用链路/Cloud CDN/POP切换)、监控与告警规则、BGP应急脚本、日志与证据收集模板、事后复盘流程。
1. 紧急联系人:填写姓名、职务、电话、备用联系方式;2. 故障等级定义:P1(全网中断)/P2(主链路性能下降)/P3(个别应用异常);3. 触发条件与自动化策略;4. 手动切换SOP与回滚步骤;5. 运营商升级路径与工单模板。
准备可快速执行的BGP命令脚本(如临时撤销路由宣告、添加AS-path prepend、调低local-preference)并在脚本旁注明回滚命令和审批人,确保可在紧急情况下快速执行且可回追。
与运营商沟通时务必准备充足证据:包含问题发生时间段的ping/mtr/traceroute输出、tcpdump抓包文件、受影响IP或网段清单、BGP路由快照(show ip bgp)、接口日志(如ifconfig/dmesg)。在工单中明确期望恢复时间(RTO)与服务影响范围。
工单示例要点:问题描述(简洁)、影响范围(IP/服务/端口)、首次发现时间与最近一次发生时间、定位步骤与证据、期望处理时限、联系人与等级。若未在SLA内得到响应,应使用事先约定的升级链路(邮件+电话+高级工程师直联),并抄送合同/客户经理以加速处理。
沟通时采用事实与数据,避免模糊陈述;把握时区与当地工作时间,遇到跨夜故障提前约定值班方案;保留所有沟通记录以便事后索赔或SLA追溯。