1.
本地运维环境与常见故障分类
- 电力与机房供电不稳定导致服务器重启或磁盘损坏;
- 上游带宽或BGP故障引起全网不可达;
- DNS解析错误或域名被篡改导致访问失败;
- 硬件老化(RAID降级、风扇/电源故障)引发性能下降;
- 应用层问题(PHP/数据库连接耗尽、慢查询)导致响应慢或超时;
- DDoS攻击或链路拥塞造成丢包、延迟飙升;
2.
故障排查流程与必备工具
- 第一步:确认范围(仅单台还是整机房/ASN);使用ping/mtr快速定位;
- 第二步:链路与路由检查,使用bgp.he.net、traceroute、BGP邻居状态;
- 第三步:抓包与流量分析,tcpdump + Wireshark/ntop查看SYN/UDP比率;
- 第四步:主机资源查看,top/htop、iostat、ss、netstat确认连接和IO瓶颈;
- 第五步:应用日志审计,journalctl/nginx|php-fpm|mysql日志定位报错;
- 第六步:对外测试带宽,iperf3测邻居链路速率与丢包率;
3.
针对性故障与快速处理方案
- 电源/硬件:先切换PDU或冗余电源,查看IPMI日志并安排更换坏件;
- BGP/链路:与上游ISP核对公告,临时增加静态路由或切换到备份链路;
- DNS问题:把域名TTL降为60s,修正记录后快速生效并开启二级DNS;
- 数据库连接耗尽:增大max_connections至500(示例),短期扩容读库或启用连接池;
- 应用卡顿:开启慢查询并针对TOP慢sql做索引优化或分表分库;
- 防火墙误封:检查iptables/nft规则,临时清空误判规则并调整阈值;
4.
DDoS识别与分级防护策略(含数据示例)
- 监测阈值:流量速率>10Gbps 或 PPS>200k 表示可能大流量攻击;
- 快速响应:当检测到SYN>500kpps或流量>50Gbps时触发上游清洗;
- CDN+清洗:将静态资源域名切入CDN,动态请求走WAF与上游清洗网关;
- 黑洞与限速:短期对目的IP做nullroute或对端口做速率限制;
- 长期:购买防护能力(例如1Tbps清洗)并设计冗余机房与Anycast DNS;
- 示例表(服务器配置与触发阈值):
| 设备 | 配置 | 防护阈值 |
| Web VPS | 8 vCPU /16GB RAM /500GB NVMe /1Gbps | 流量>10Gbps触发CDN |
| 数据库主 | 2xXeon /32GB /RAID10 /10Gbps | 连接>2500触发读库切换 |
5.
备份、容灾与恢复演练要点
- 数据备份:主库每日全量+每小时增量,备份保留30天并异地复制;
- 快照与镜像:利用LVM/ZFS或云快照实现分钟级恢复;
- DNS与故障切换:设置低TTL(60s)并预置备用IP/备用机房;
- 演练频率:季度演练一次全流程恢复并记录RTO/RPO;
- 自动化:采用Ansible/Terraform实现环境自动重建与配置一致性;
6.
真实案例:金边IDC遭受SYN+UDP混合攻击的处置
- 事件概述:某本地电商在促销期间遭遇瞬时流量峰值约250Gbps,SYN峰值约1.2Mpps;
- 影响:外网连接高丢包,用户访问延迟>5s,部分API超时;
- 处置:1) 立即与上游ISP协商流量导向清洗,2) 将静态资源切入国际CDN,3) 针对SYN增加synproxy及SYN cookies;
- 成果:清洗后30分钟内流量降至正常,业务可用率恢复到99.9%,并在后续将关键服务迁移到多AZ以降低单点风险;
- 教训与改进:增加链路冗余、常态化流量阈值告警,并将部分接口托管至WAF+API网关;
来源:本地运维视角解读柬埔寨架设服务器的常见故障与处理方案