grafana_alert概念与配置

这一块对于应用监控而言是不可缺少的存在,如果某个指标超过了某个阈值,我们就必须要将这个超过阈值的信息给通过邮件或者电话通知出去,而不能单纯的人盯着grafana视图。

这一块目前了解有限:

第一,我们可以利用Prometheus中的alert_manager去实现(是prometheus配套的配置rule,触发告警)。

第二,就是使用grfana的alert rule去实现(能覆盖更多的数据源)。

参考grafana告警配置(webhook,email)

参考grafana告警配置

grafana的告警主要几个概念:

  • evaluation 时间间隔 表示多久探测一次
  • pending period 间隔,表示告警持续多久 就出发告警。

告警等级: normal——>pending——>firing

contact ponit 是指配置通知渠道,比如邮件,企业微信,钉钉,webhook等配置对接

grafana配置163网易邮箱与qq邮箱手册:

notification policy 是指关联 rule与contact ponit 比如什么样的等级推送怎样的告警