(1) 理解业务与基础设施关联:视频点播/直播对带宽和延迟极其敏感。
(2) 提前发现问题:通过指标能快速定位是CDN、回源还是源站问题。
(3) 降低成本:合理配置缓存和回源频率可显著降低源站带宽费用。
(4) 提升用户体验:关键指标直接影响播放启动时间、卡顿率等感知质量。
(5) 安全与合规:通过异常流量监控可快速发现DDoS或爬虫攻击。
(6) 教学目标:视频教程中要把理论与实际监控数据结合,学会设置告警和读懂图表。
(1) 带宽峰值(Mbps/ Gbps):观察短时峰值,判断CDN峰值并配置回源带宽。
(2) 流量总量(GB/day):按域名/业务统计,作为计费和优化依据。
(3) 平均并发/请求数(QPS):视频启动和并发播放数的基础数据。
(4) 回源带宽与次数:回源数据直接关联源站负载和计费。
(5) 峰值时段分布:按小时/分钟细分,判断流量突发规律。
(6) 建议告警阈值:例如带宽突增超日均3倍且回源率>20%时触发人工检查。

(1) 缓存命中率(%):越高越好,视频点播目标>90%。
(2) 回源率(%):回源率高表示缓存策略不合理或频繁刷新。
(3) 按路径/文件类型统计:大文件(mp4、m3u8)与小文件命中率要求不同。
(4) 缓存过期与强制刷新次数:检查CDN配置的Cache-Control/Expires。
(5) 回源响应时间:若回源慢,应优化源站或增加回源带宽。
(6) 优化建议:对静态视频使用长TTL,对变更频繁资源使用版本号机制。
(1) 首字节时间(TTFB):衡量CDN节点与源站响应的首要指标,目标<200ms。
(2) 平均响应时延(ms):播放流畅度直接受影响,目标<100ms(边缘到终端)。
(3) 丢包率(%):高丢包会导致重传与卡顿,要求<1%为佳。
(4) 路由跳数与Traceroute结果:用于定位网络瓶颈与运营商问题。
(5) CDN节点就近能力:跨地域延迟差异需在监控面板体现。
(6) 告警策略:单节点丢包>5%且持续5分钟触发预警,影响评估并切换回源策略。
(1) 2xx、3xx、4xx、5xx的占比:统计各类状态码比例以快速定位错误类型。
(2) 404/403频率:大量404可能为链路/配置错误或爬虫行为。
(3) 5xx错误:源站或回源异常的直接信号,需结合回源时延判断。
(4) 重试/超时次数:高超时与重试会放大带宽与并发负载。
(5) 按域名与路径拆分分析:找出高错误率的具体资源。
(6) 实操建议:对常见错误建立自动告警并记录请求示例以便复现。
(1) 异常流量模式:突发短时流量、请求包大小分布异常。
(2) 源IP集中度:单IP或小网段流量占比过高需警惕攻击。
(3) 请求频次与User-Agent分布:爬虫或漏洞扫描常表现为异常UA。
(4) SYN/UDP异常包监测:网络层攻击的关键指标。
(5) 黑/白名单与WAF日志:结合WAF阻断记录评估威胁。
(6) 防护阈值举例:单IP QPS>1000或单网段短时带宽>200Mbps触发自动清洗。
(1) 背景:某中型视频点播站,日峰并发5000,原站为2核4GB VPS,带宽10Mbps峰值负载不足。
(2) 问题:上线初期遇到回源带宽飙升与播放卡顿,缓存命中率仅55%。
(3) 监控数据(示例):见下表为某小时采样平均值。
| 时间 | 带宽峰值(Mbps) | 平均QPS | 缓存命中率(%) | 回源带宽(Mbps) |
|---|---|---|---|---|
| 10:00-11:00 | 220 | 3200 | 55 | 99 |
(1) 建立分级告警:信息/警告/严重,分别对应自动扩容、人工介入和紧急清洗。
(2) 常用阈值示例:缓存命中率<70%、回源带宽占比>30%、5xx占比>1%触发告警。
(3) 自动化脚本:根据监控API实现自动切换回源或限速策略。
(4) 定期演练:做流量突发演练与DDoS响应演练,验证监控链路有效性。
(5) 教学建议:视频教程应包含监控面板解读、告警配置、以及从监控数据回溯到配置修复的案例。
(6) 持续优化:结合业务统计定期调整CDN加速策略与源站规格,做到成本与体验平衡。