这一块对于应用监控而言是不可缺少的存在,如果某个指标超过了某个阈值,我们就必须要将这个超过阈值的信息给通过邮件或者电话通知出去,而不能单纯的人盯着grafana视图。
这一块目前了解有限:
第一,我们可以利用Prometheus中的alert_manager去实现(是prometheus配套的配置rule,触发告警)。
第二,就是使用grfana的alert rule去实现(能覆盖更多的数据源)。
grafana的告警主要几个概念:
- evaluation 时间间隔 表示多久探测一次
- pending period 间隔,表示告警持续多久 就出发告警。
告警等级: normal——>pending——>firing
contact ponit 是指配置通知渠道,比如邮件,企业微信,钉钉,webhook等配置对接
grafana配置163网易邮箱与qq邮箱手册:
notification policy 是指关联 rule与contact ponit 比如什么样的等级推送怎样的告警

