应用运维领域离不开三大监控利器,metrics(指标),logs(日志),traces(链路)。
指标最大的采集利器就是 Prometheus
日志的话,容器应用会有打日志的规范,打印在容器的某个固定目录,那么我们就能够通过部署采集,收集到对应的日志进行分析
traces 链路追踪,能够让应用知道对应的链路流向,这样能够辅助应用的故障定位。
应用运维其中还有几个比较关键的概念:
系统失败:因为系统原因导致失败,比如超时,不可用等
业务失败:表示因为业务逻辑导致失败
从运维的角度来说,我们一定不能出现系统失败,系统失败必然导致业务不可用。
对于系统上失败的场景,我们需要进一步去分析由什么原因导致系统失败,分析系统失败的交易占比,如何去做切换,是因为数据库的原因导致耗时过大,需要去关注交易量的变化。这一切的一切,关键入口,就是微服务的网关层,这样能够让我们能更高的洞察这个交易量的情况。

