安顺做网站,wordpress添加文章时可以上传视频,免费在线观看高清影片,网络品牌推广怎么做监控需求来源
刚开始的需求就是出了问题#xff0c;我们可以精确感知到。 后来的需求扩展为#xff1a; 通过监控了解数据趋势#xff0c;知道系统在未来的某个时刻可能出问题#xff0c;预知问题。 通过监控了解系统的水位情况#xff0c;为服务扩缩容提供数据支撑。 通…监控需求来源
刚开始的需求就是出了问题我们可以精确感知到。 后来的需求扩展为 通过监控了解数据趋势知道系统在未来的某个时刻可能出问题预知问题。 通过监控了解系统的水位情况为服务扩缩容提供数据支撑。 通过监控来给系统把脉感知到哪里需要优化比如一些中间件参数的调优。 通过监控来洞察业务提供业务决策的数据依据及时感知业务异常。 可观测性三大支柱 指标监控只能处理数字但是因为历史存储数据简单实时性好生态好所以很受欢迎。 日志有软件的运行情况、业务的运营情况等通常量比较大不够结构化存储成本较高。 链路追踪以请求串联上下游模块为每个请求生成一个随机字符串作为请求 ID。服务之间互相调用的时候把这个 ID 逐层往下传递每层分别耗费了多长时间是否正常处理都可以收集起来附到这个请求 ID 上。后面追查问题时拿着请求 ID 就可以把串联的所有信息提取出来。 这三者不是完全割裂开的
业界方案横评
名称ZabbixOpen-FalconPrometheusNightingale描述企业级的开源解决方案擅长设备、网络、中间件的监控。Zabbix 核心由两部分构成Zabbix Server 与可选组件 Zabbix Agent。组件比较散。 Open-Falcon 基于 RRDtool 做了一个分布式时序存储组件 Graph。这种做法可以把多台机器组成一个集群大幅提升海量数据的处理能力。前面负责转发的组件是 TransferTransfer 对监控数据求取一个唯一 ID再对 ID 做哈希就可以生成监控数据和 Graph 实例的对应关系这就是 Open-Falcon 架构中最核心的分片逻辑。结合我们给出的架构图来看告警部分是使用 Judge 模块来做的发送告警事件的是 Alarm 模块采集数据的是 Agent负责心跳的模块是 HBS负责聚合监控数据的模块是 Aggregator负责处理数据缺失的模块是 Nodata。当然还有用于和用户交互的 Portal/Dashboard 模块。针对 Kubernetes 做了直接的支持提供了多种服务发现机制大幅简化了 Kubernetes 的监控和 Prometheus 做良好的整合打造一个更完备的方案。当下的架构主要是把 Prometheus 当成一个时序库作为 Nightingale 的一个数据源。优点1.对各种设备的兼容性较好Agentd 不但可以在 Windows、Linux 上运行也可以在 Aix 上运行。2.架构简单使用数据库做时序数据存储易于维护备份和转储都比较容易。3.社区庞大资料多。1.可以处理大规模监控场景。2.组件拆分得比较散大都是用 Go 语言开发的Web 部分是用 Python易于做二次开发。1.对 Kubernetes 支持得很好目前来看Prometheus 就是 Kubernetes 监控的标配。w生态庞大有各种各样的 Exporter支持各种各样的时序库作为后端的 Backend 存储也有很好的支持多种不同语言的 SDK供业务代码嵌入埋点。1.有比较完备的 UI有权限控制产品功能比较完备可以作为公司级统一的监控产品让所有团队共同使用。2.兼容并包设计上比较开放缺点1.使用数据库做存储无法水平扩展容量有限。 2.Zabbix 面向资产的管理逻辑监控指标的数据结构较为固化没有灵活的标签设计面对云原生架构下动态多变的环境显得力不从心。1.生态不够庞大是小米公司在主导很多公司做了二次开发但是都没有回馈社区有一些贡献者但数量相对较少。2开源软件的治理架构不够优秀1.易用性差。2.Exporter 参差不齐通常是一个监控目标一个 Exporter管理起来成本比较高 。3.容量问题Prometheus 默认只提供单机时序库集群方案需要依赖其他的时序库。1.机房网络割裂问题告警引擎单独拆出一个模块下沉部署到各个机房。2.告警事件发送缺少聚合降噪收敛逻辑
此文章为9月Day 5学习笔记内容来源于极客时间《运维监控系统实战笔记》。