告警分诊是 Castrel 的核心能力之一,它改变了 SRE 团队处理告警的方式,减少告警疲劳,并让你能在现有工作流中直接基于数据做决策。
告警分诊是一套由 AI 驱动的告警分类与分析系统。它会自动评估来自监控工具(Prometheus、Grafana 等)的告警,并直接在 Slack 中给出智能分析结果。你不必再手动登录多个系统逐条排查告警,Castrel 会像你的智能“副驾”一样,在几秒钟内给出带上下文的分析。
告警分诊会自动把告警归为三类:
1. 触发告警分诊
告警分诊可以通过两种方式触发:
2. 接收报告
当告警触发后,Castrel 会自动分析并返回一份由三部分组成的报告:
3. 后续动作
根据分类结果采取合适动作。如果告警被确认为 事故,你可以让 Castrel 发起 事故调查 来进一步做根因分析。
你也可以提供反馈(Helpful / Not Helpful),帮助 Castrel 持续提高分析准确度。
Castrel 会按照一套系统化流程分析每条告警:
1. 告警规则与历史分析
Castrel 首先会获取监控规则配置和历史告警数据,以判断:
2. 告警对象识别与可观测性检查
Castrel 会从告警消息和字段中提取告警对象(服务或基础设施),然后在相关集成已连接的前提下检查对应的可观测性数据。你也可以创建带有告警触发模式的 知识,告诉 Castrel 应该如何调查特定类型的告警。
3. 异常与影响评估
基于可观测性数据,Castrel 会评估:
slo.md 中定义自定义 SLO)| 建议 | 说明 |
|---|---|
| 接入全部数据源 | Castrel 能访问的数据越完整(指标、日志、链路),分类就越准确 |
| 持续提供反馈 | 通过反馈帮助 Castrel 改进。除非你显式授权,我们的团队无法访问你的反馈对话或相关告警 |
| 记录已知行为 | 使用 知识 告诉 Castrel 哪些行为是预期内的(例如备份窗口) |
Castrel 会结合两种分析方式:
黑盒分析 会检查告警规则的历史数据,识别频繁触发、自动恢复、与计划任务相关等模式。
白盒分析 会查看告警对象的可观测性数据,判断黄金信号(延迟、错误、流量、饱和度)或 SLO 是否真的受到了影响。