整理几个专门用于存储到loki的nginx日志指标告警语句
1. 高错误率告警(5xx错误)
sum(rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) / sum(rate({app_type="gateway"} | json [5m])) > 0.05告警说明:
监控目标: 检测Gateway服务5xx错误率超过5%
时间窗口: 5分钟内的错误率
触发条件: 错误率 > 5%
告警级别: Critical
业务影响: 服务可用性严重下降,用户体验受损
处理建议: 立即检查上游服务状态、网络连接、资源使用情况
2. 响应时间异常告警
quantile_over_time(0.95, {app_type="gateway"} | json | unwrap request_time [5m]) by (http_host) > 1告警说明:
监控目标: P95响应时间超过2秒
时间窗口: 5分钟滑动窗口
触发条件: 95%分位数响应时间 > 2秒
告警级别: Warning
业务影响: 用户体验下降,可能影响业务转化率
处理建议: 检查数据库性能、缓存命中率、网络延迟
3. 上游服务异常告警
sum(rate({app_type="gateway"} | json | upstream_status =~ "4..|5.." [5m])) by (upstream_addr) > 10告警说明:
监控目标: 上游服务非200状态码请求数过高
时间窗口: 5分钟内的错误请求数
触发条件: 错误请求数 > 10次/分钟
告警级别: Warning
业务影响: 后端服务异常,可能导致功能不可用
处理建议: 检查具体上游服务健康状态、负载均衡配置
4. 流量异常告警(低于一个最低值)
sum(rate({app_type="gateway"} | json [5m])) < 10告警说明:
监控目标: 总体请求量异常下降
时间窗口: 5分钟内的请求速率
触发条件: 请求速率 < 10次/分钟
告警级别: Warning
业务影响: 可能存在服务中断或网络问题
处理建议: 检查服务可用性、DNS解析、负载均衡器状态
5. 特定状态码告警(4xx、5xx错误)
sum by(status, http_host) (rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) > 20告警说明:
监控目标: 4xx客户端错误过多
时间窗口: 5分钟内的4xx错误数
触发条件: 4xx错误数 > 20次/分钟
告警级别: Warning
业务影响: 客户端请求异常,可能是API使用问题
处理建议: 分析具体错误码,检查API文档、参数验证
6. 业务关键接口告警
sum(rate({app_type="gateway"} | json | request=~"/api/(personal-center|justauth|system-config).*"| status =~ "4..|5.." [5m])) by (request) > 0.005告警
监控目标: 关键业务接口(登录、支付、订单)错误率
时间窗口: 5分钟内的错误请求数
触发条件: 关键接口错误数 > 5次/分钟
告警级别: Critical
业务影响: 核心业务功能受影响,直接影响收入
处理建议: 优先级最高,立即排查相关服务和数据库
7.流量突增告警
sum(rate({app_type="gateway"} | json [5m])) / sum(rate({app_type="gateway"} | json [5m] offset 1h)) > 5告警说明:
监控目标: Gateway应用日志流量异常突增检测。
时间窗口: 当前5分钟与1小时前5分钟对比
触发条件: 当前请求速率是1小时前的5倍以上
告警级别: Critical(严重级别)
业务影响: 可能导致服务性能下降、系统资源消耗增加或存在安全风险
处理建议: 立即检查Gateway状态、分析流量来源、监控系统资源、必要时启用安全防护
8. 安全相关告警
sum(rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) by (remote_addr) > 10告警说明:
监控目标: 单个IP的认证/授权或异常请求失败次数过多
时间窗口: 5分钟内的认证失败数
触发条件: 单IP认证失败 > 10次/分钟
告警级别: Warning
业务影响: 可能存在恶意攻击或暴力破解
处理建议: 检查是否需要IP封禁、加强安全策略
N9E配置建议
告警级别设置:
Critical: 立即处理(5分钟内响应)
Warning: 30分钟内处理
时间窗口配置:
评估周期:1分钟
持续时间:3-5分钟(避免误报)
告警抑制:
同类告警5分钟内只发送一次
设置告警恢复通知
通知渠道:
Critical级别:电话 + 短信 + 企业微信
Warning级别:企业微信 + 邮件