1.
前期准备与承载链路确认
a) 与 CN2 提供商签订服务,获取对端 IP、AS、VLAN、SLA 与技术联系人;
b) 确认承载链路类型(光纤直连或租用交换),准备 SFP 模块、光功率计、标签线缆;
c) 在机房确认机柜位置、PDU、链路带宽并记录端口号与物理编号。
2.
物理与链路层检查
a) 插入 SFP,检查光功率与链路灯,使用光功率计确认 Tx/Rx 在规范范围;
b) 配置交换机端口:设置描述、开启必要的速率/双工、禁止自动协商问题,示例:interface Gi0/1 description CN2-PE switchport trunk allowed vlan X;
c) 验证 VLAN 标记与本端 VLAN 一致,使用 show interface status / show vlan 检查。
3.
接口与 IP 配置(以 Cisco IOS 为例)
a) 配置物理接口并设置 IP:interface GigabitEthernet0/0 ip address 203.0.113.2 255.255.255.252 description to-CN2-PE no shutdown;
b) 设置 MTU(如对端要求 9216 或 1500):interface … mtu 9216;
c) 验证 ping 对端网关并记录 RTT。
4.
BGP 基本对等配置
a) 在路由器上配置 BGP:router bgp 65001 neighbor 203.0.113.1 remote-as 45102 description CN2-Peer;
b) 配置更新源、password(md5)和激活策略:neighbor X password yourMD5 neighbor X ebgp-multihop(如需要);
c) 宣告本地前缀:network 198.51.100.0 mask 255.255.255.0 或配置 route-map + redistribute。
5.
BGP 策略与过滤
a) 使用 prefix-list 与 route-map 控制出入路由:ip prefix-list OUT seq 5 permit 198.51.100.0/24;
b) 对入站前缀进行过滤,防止路由注入与回路:ip bgp inbound route-map FILTER-IN;
c) 根据 CN2 要求应用 community 或 local-preference 调优流量。
6.
MPLS/VPN 与二层 VLAN 情形
a) 若通过 MPLS/VRF 隔离业务,创建 VRF 并在接口上绑定:ip vrf CN2-VRF rd 65001:100;
b) 配置 L3-interface 到 PE,确保 route-target 与 PE 一致;
c) 验证路由导入导出:show ip route vrf CN2-VRF / show ip bgp vpnv4 all。
7.
安全与 ACL 设置
a) 为对端 BGP 会话配置 ACL 限制只允许对端 IP:access-list 10 permit host 203.0.113.1;
b) 防止放大攻击,限制 ICMP/UDP 到管理接口,并启用控制面保护(CPPr、CoPP);
c) 对管理访问启用 SSH、限制来源并开启登录审计。
8.
网络监控初步部署(SNMP/NetFlow)
a) 启用 SNMPv3 或 SNMPv2(社区字符串安全性低):snmp-server group MON v3 auth snmpv3group;
b) 配置 NetFlow/IPFIX 导出到采集服务器以做流量分析;
c) 在监控系统(Zabbix/Grafana/Prometheus)创建主机与模板,设定阈值告警(丢包、时延、BGP Down)。
9.
主动与被动监测方案
a) 部署探针:定时 ping、traceroute、mtr 到关键目的地(CN2 核心节点、国内 CDN);
b) 被动收集:SNMP 接口流量、错误计数与 BGP Counters;
c) 定期生成 SLA 报告:丢包率、平均时延、抖动和可用率。
10.
链路验证与性能测试
a) 使用 iperf3 在双方部署测试端进行吞吐测试(iperf3 -s / iperf3 -c PE_IP -t 60);
b) 使用 mtr 或 traceroute 检查路径跳数与拥堵点:mtr -r -c 100 目标IP;
c) 记录样本并与 CN2 NOC 要求的阈值比对。
11.
常见故障分类与快速定位流程
a) 物理层:光衰、SFP 不兼容、链路灯异常(检查光功率、替换 SFP 与跳线);
b) 二层:VLAN 标记错误、端口速率/双工不匹配(查看 show interface counters);
c) 三层/BGP:邻居不建立、路由不通(检查 show ip bgp summary、BGP MD5、AS 配置、TTL)。
12.
详细 BGP 故障排查步骤
a) 若 BGP Down:检查物理、ACL、MD5 密码与 AS 是否正确;
b) 使用 show ip bgp neighbors 检查错误信息(hold time、prefixes received);
c) 若路由不被接受,检查 prefix-list、route-map 与社区匹配、使用 show ip bgp regexp 学习到的属性。
13.
高时延/丢包问题处理流程
a) 使用 mtr 定位丢包发生在那一跳并对比不同时间段;
b) 检查接口错误(input errors、CRC)与队列丢包(show queue stats);
c) 若在 CN2 网络中间出现问题,收集 traceroute/mtr、时间戳、样本并向 CN2 NOC 发工单,附上 tcpdump(tcpdump -i eth0 host X and icmp)日志与采样文件。
14.
故障单编写与升级要点
a) 工单应包含:发生时间范围、源/目的 IP、traceroute/mtr 输出、BGP 摘要(show ip bgp summary)、接口统计和配置快照;
b) 明确影响范围、复现步骤与期望行为;
c) 若需要紧急升级,提供 PCAP、iperf 输出与监控曲线,方便对端 NOC 快速定位。
15.
运维标准化建议与自动化
a) 将常用排查命令脚本化(Ansible/Netmiko 采集 show 输出并保存);
b) 定期自动化健康检查并推送告警到工单系统与微信/Slack;
c) 建立知识库,记录故障原因、处理过程与最终解决方案以便复用。
16.
问:在柬埔寨 CN2 链路上线初期常见的第一个问题是什么?
17.
答:常见的是物理层与 VLAN/MTU 不匹配导致链路不通或性能不佳。排查步骤:先验光功率与 SFP,检查交换机端口配置与 VLAN 标签,确认 MTU 与对端一致,然后再看接口错误与 BGP 会话。
18.
问:BGP 会话偶发掉线,如何快速定位是对端问题还是本端问题?
19.
答:按顺序检查物理、ACL 与 MD5,查看本端日志(debug/日志等级)和 show ip bgp neighbors 检查掉线原因。如果日志显示 keepalive/hold 超时,先排查网络丢包或对端重启;排除本端配置无误后,将 mtr/traceroute 与时间点数据提供给对端 NOC 进一步核查。
20.
问:如果发现 CN2 路径延迟高,但到本地其他链路正常,下一步该怎么做?
21.
答:先用 mtr 多时间段采样确认延迟与丢包是否持续;做 iperf 吞吐测试并抓包定位是否有分段/重传;收集样本后向 CN2 NOC 提交工单,提供 traceroute/mtr 报告、PCAP、BGP 信息与监控曲线,要求对端排查其链路或核心节点。
来源:从零开始学习柬埔寨cn2线路部署配置监控与常见故障处理流程