Administrator
发布于 2025-09-28 / 2 阅读
0
0

loki LogQL nginx指标告警

整理几个专门用于存储到loki的nginx日志指标告警语句

1. 高错误率告警(5xx错误)

sum(rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) / sum(rate({app_type="gateway"} | json [5m]))  > 0.05

告警说明:

  • 监控目标: 检测Gateway服务5xx错误率超过5%

  • 时间窗口: 5分钟内的错误率

  • 触发条件: 错误率 > 5%

  • 告警级别: Critical

  • 业务影响: 服务可用性严重下降,用户体验受损

  • 处理建议: 立即检查上游服务状态、网络连接、资源使用情况

2. 响应时间异常告警

quantile_over_time(0.95, {app_type="gateway"} | json | unwrap request_time [5m]) by (http_host) > 1

告警说明:

  • 监控目标: P95响应时间超过2秒

  • 时间窗口: 5分钟滑动窗口

  • 触发条件: 95%分位数响应时间 > 2秒

  • 告警级别: Warning

  • 业务影响: 用户体验下降,可能影响业务转化率

  • 处理建议: 检查数据库性能、缓存命中率、网络延迟

3. 上游服务异常告警

sum(rate({app_type="gateway"} | json | upstream_status =~ "4..|5.." [5m])) by (upstream_addr) > 10

告警说明:

  • 监控目标: 上游服务非200状态码请求数过高

  • 时间窗口: 5分钟内的错误请求数

  • 触发条件: 错误请求数 > 10次/分钟

  • 告警级别: Warning

  • 业务影响: 后端服务异常,可能导致功能不可用

  • 处理建议: 检查具体上游服务健康状态、负载均衡配置

4. 流量异常告警(低于一个最低值)

sum(rate({app_type="gateway"} | json [5m])) < 10

告警说明:

  • 监控目标: 总体请求量异常下降

  • 时间窗口: 5分钟内的请求速率

  • 触发条件: 请求速率 < 10次/分钟

  • 告警级别: Warning

  • 业务影响: 可能存在服务中断或网络问题

  • 处理建议: 检查服务可用性、DNS解析、负载均衡器状态

5. 特定状态码告警(4xx、5xx错误)

sum by(status, http_host) (rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) > 20

告警说明:

  • 监控目标: 4xx客户端错误过多

  • 时间窗口: 5分钟内的4xx错误数

  • 触发条件: 4xx错误数 > 20次/分钟

  • 告警级别: Warning

  • 业务影响: 客户端请求异常,可能是API使用问题

  • 处理建议: 分析具体错误码,检查API文档、参数验证

6. 业务关键接口告警

sum(rate({app_type="gateway"} | json | request=~"/api/(personal-center|justauth|system-config).*"| status =~ "4..|5.." [5m])) by (request) > 0.005

告警

  • 监控目标: 关键业务接口(登录、支付、订单)错误率

  • 时间窗口: 5分钟内的错误请求数

  • 触发条件: 关键接口错误数 > 5次/分钟

  • 告警级别: Critical

  • 业务影响: 核心业务功能受影响,直接影响收入

  • 处理建议: 优先级最高,立即排查相关服务和数据库

7.流量突增告警

sum(rate({app_type="gateway"} | json [5m])) / sum(rate({app_type="gateway"} | json [5m] offset 1h)) > 5

告警说明:

  • 监控目标: Gateway应用日志流量异常突增检测。

  • 时间窗口: 当前5分钟与1小时前5分钟对比

  • 触发条件: 当前请求速率是1小时前的5倍以上

  • 告警级别: Critical(严重级别)

  • 业务影响: 可能导致服务性能下降、系统资源消耗增加或存在安全风险

  • 处理建议: 立即检查Gateway状态、分析流量来源、监控系统资源、必要时启用安全防护

8. 安全相关告警

sum(rate({app_type="gateway"} | json | status =~ "4..|5.." [5m])) by (remote_addr) > 10

告警说明:

  • 监控目标: 单个IP的认证/授权或异常请求失败次数过多

  • 时间窗口: 5分钟内的认证失败数

  • 触发条件: 单IP认证失败 > 10次/分钟

  • 告警级别: Warning

  • 业务影响: 可能存在恶意攻击或暴力破解

  • 处理建议: 检查是否需要IP封禁、加强安全策略

N9E配置建议

告警级别设置:

  • Critical: 立即处理(5分钟内响应)

  • Warning: 30分钟内处理

时间窗口配置:

  • 评估周期:1分钟

  • 持续时间:3-5分钟(避免误报)

告警抑制:

  • 同类告警5分钟内只发送一次

  • 设置告警恢复通知

通知渠道:

  • Critical级别:电话 + 短信 + 企业微信

  • Warning级别:企业微信 + 邮件


评论