建立网站的软件,祁阳网页定制,网站的三要素,深圳校园网站建设受限于拨测节点自身的环境#xff0c;单一节点的拨测结果可能并不能反映出监控实例的真实运行状态
本期EasyOps产品使用最佳实践#xff0c;我们将为您揭晓#xff1a; 如何基于多点决策配置拨测监控#xff0c;以避免拨测机自身网络问题而误告警#xff1f; 如何对指标… 受限于拨测节点自身的环境单一节点的拨测结果可能并不能反映出监控实例的真实运行状态
本期EasyOps产品使用最佳实践我们将为您揭晓 如何基于多点决策配置拨测监控以避免拨测机自身网络问题而误告警 如何对指标实现“降维”从而汇聚指标
「 背 景 」
拨测监控作为监控体系中重要的一环为管理员提供最为直接的状态监控。然而受限于拨测节点自身的环境和网络环境可能单一拨测节点的结果并不能反映出监控实例的实际运行状态。比如当拨测节点所在的网络发生故障时或者和监控实例的网络中断时此时会认为监控实例的服务不可用。
但是这种判断可能是错误的。
因此多点决策的需求就产生了。它基于这样一种监控逻辑假设有两个拨测节点分布于两个不同的环境或者网络同时对目标实例拨测。仅当超过半数的拨测节点(也就是两台拨测机都发生告警时)才认为目标实例异常时才发出拨测告警。
before: after: 「 配 置 说 明 」
1.针对主机配置拨测采集策略并且指定两台拨测机。 2.配置汇聚指标这里作详细说明
拨测的指标detect_code包含着多个维度而我们希望把detectAgentId和detectAgentName这两个维度降维了让detect_code可通过jobId来汇聚成一个指标。
因此需要作如下配置表达式avg(detect_code ) by (stepName,jobId,customTag) 上述表达式说明新指标的维度是stepNamejobIdcustomTag把agent相关的维度聚合在一起了。
此时两台拨测机的汇聚结果可参考如下表格 可知只有当两台拨测机都返回1的返回码时也就是两台拨测机都认为实例故障时多点决策返回码才大于0.5因此0.5可以作为多点决策的判断阈值。
3.配置告警规则 此时当两台拨测机都探测目标实例失败时才会发出拨测失败的告警。如果只有一台拨测机认为拨测失败并不会发出告警以实现了半数以上判断为失败才失败的逻辑。
该实践提供了多点决策的能力弥补了拨测节点的单点缺陷。