作为运维人员,需要先识别典型瓶颈:带宽饱和、防护设备(如WAF/防火墙)性能瓶颈、TCP并发连接数、内核网络栈限制以及上游链路质量(丢包/抖动)。此外,应用层(如慢请求、长连接)也会放大网络问题。常用判断指标:网卡利用率、丢包率、连接数、socket半开数量和CPU/中断(softirq)占用。
推荐使用iftop、nload、ss/netstat查看连接、tcpdump抓包、mtr/traceroute定位链路问题、sar/iostat观察系统资源。
先看接口统计和流量峰值,再通过tcpdump抓取异常五元组,结合防护日志判断是否为攻击流量或正常业务峰值。
合理接入CDN/负载均衡,升级防护设备吞吐能力,针对长连接做连接池/超时优化,以及调整内核参数(如net.ipv4.tcp_max_syn_backlog、conntrack)。
网络优化应分层进行:链路层(带宽与链路冗余)、传输层(TCP参数、拥塞控制)、应用层(HTTP keep-alive、压缩、长连接管理)和防护层(流量清洗与速率限制)。
在服务器端调整:启用NNI BBR或合适的拥塞控制算法,增加socket缓冲区(net.core.rmem_max、wmem_max)、调整TIME_WAIT回收(tcp_tw_reuse/tcp_tw_recycle谨慎使用),并优化conntrack表大小。
采用四层/七层负载均衡分流,前置启用CDN与上游清洗服务;对CPU/网卡瓶颈可考虑多队列(RSS)与中断绑定(IRQ affinity)。
每项修改要在灰度节点或离峰时段验证,通过Prometheus/Grafana监控关键指标,出现异常需能快速回滚。
先判断是攻击还是业务增长:分析流量来源、报文特征(SYN洪泛、UDP放大、HTTP慢速请求),利用sFlow/NetFlow采样查看上游流向,结合防护平台日志识别攻击特征。
1) 抓包确认报文类型;2) 统计源IP地理与ASN分布;3) 使用ACL或黑名单在边界封堵高频源;4) 与带宽/上游运营商协同,必要时启用黑洞或转发到清洗中心。
短期:启用速率限制、SYN Cookie、ACL、临时封IP段;中长期:购买清洗能力、部署弹性带宽和全局流量调度、加强应用层验证(验证码、限流)。
保留pcap、流量峰值图和防护日志,便于与运营商或第三方清洗厂商协作取证与溯源。
先用 在出现抖动时做双端抓包对比(客户端与服务端),观察重传、窗口缩小和RTT变化;通过BGP查看路由变更、邻居flap或流量绕行问题。 若定位到运营商链路,提供mtr/traceroute和pcap证据,与对端NOC沟通确认物理链路或中间设备故障。 启用链路冗余、多出口BGP和负载分发,定期监测接口错误并做好容量规划。 监控体系应覆盖网络、主机、应用和防护四层:带宽、丢包、连接数、CPU、内存、磁盘、应用响应时间及防护事件。 采集网卡流量、socket队列长度、tcp重传率、SYN增长率、conntrack使用率和防护策略命中率;使用Prometheus+Grafana或Zabbix做可视化。 告警分级与抑制:短时高峰用短时阈值(如1分钟),持续异常触发升级流程,并结合事件自动化(runbook)完成初步处置。 制定故障定位SOP、定期演练DDoS/链路故障场景,确保值班人员能快速使用抓包、mtr和防护控制台进行定位与缓解。