管理手册运维集群监控报警报警管理版本:3.1本页总览报警管理 本文从业务持续性、集群可用性、机器负载等多个维度介绍需要关注的报警项及其处理办法。 备注以下示例中,所有变量均以 $ 为前缀,请自行根据业务环境自行替换。例如,$job_name 需替换为 Prometheus 配置中对应的 Job Name,$fe_leader 需替换为对应 Leader FE 的 IP 地址。 服务挂起报警