功能

告警分诊

使用 AI 洞察高效完成告警分诊与管理。

告警分诊是 Castrel 的核心能力之一,它改变了 SRE 团队处理告警的方式,减少告警疲劳,并让你能在现有工作流中直接基于数据做决策。

什么是告警分诊?

告警分诊是一套由 AI 驱动的告警分类与分析系统。它会自动评估来自监控工具(Prometheus、Grafana 等)的告警,并直接在 Slack 中给出智能分析结果。你不必再手动登录多个系统逐条排查告警,Castrel 会像你的智能“副驾”一样,在几秒钟内给出带上下文的分析。

告警分诊会自动把告警归为三类:

  • 噪音(误报):符合预期的系统行为,不需要处理
  • 潜在风险(Warning):值得关注,但不算紧急
  • 事故(Incident):已经确认有用户影响,需要立即处理

如何使用告警分诊

1. 触发告警分诊

告警分诊可以通过两种方式触发:

  • Webhook 集成:当告警发送到已连接的 IM 工具时自动触发。目前支持 Slack,后续会支持更多集成(见 路线图)。
  • 手动触发:在 Castrel 界面或集成入口中,手动对任意告警发起分析。

2. 接收报告

当告警触发后,Castrel 会自动分析并返回一份由三部分组成的报告:

  • 分类结果:它是噪音、潜在风险还是事故,并附带置信度分数
  • 告警自分析:基于监控规则和历史数据评估告警特征,包括:
    • 这个告警是否经常触发
    • 它是否通常会自动恢复
    • 历史触发模式和恢复耗时
  • 证据摘要:支持分类结论的关键数据点和观察结果

3. 后续动作

根据分类结果采取合适动作。如果告警被确认为 事故,你可以让 Castrel 发起 事故调查 来进一步做根因分析。

你也可以提供反馈(Helpful / Not Helpful),帮助 Castrel 持续提高分析准确度。

Castrel 如何进行告警分诊

Castrel 会按照一套系统化流程分析每条告警:

1. 告警规则与历史分析

Castrel 首先会获取监控规则配置和历史告警数据,以判断:

  • 这个告警是否经常触发
  • 它是否通常会自动恢复
  • 历史模式和恢复时间

2. 告警对象识别与可观测性检查

Castrel 会从告警消息和字段中提取告警对象(服务或基础设施),然后在相关集成已连接的前提下检查对应的可观测性数据。你也可以创建带有告警触发模式的 知识,告诉 Castrel 应该如何调查特定类型的告警。

3. 异常与影响评估

基于可观测性数据,Castrel 会评估:

  • 指标是否出现突发异常或频繁波动
  • 黄金信号(延迟、流量、错误、饱和度)是否退化
  • SLO 是否被违反(你可以在对象知识中的 slo.md 中定义自定义 SLO)

提升效果的小建议

建议说明
接入全部数据源Castrel 能访问的数据越完整(指标、日志、链路),分类就越准确
持续提供反馈通过反馈帮助 Castrel 改进。除非你显式授权,我们的团队无法访问你的反馈对话或相关告警
记录已知行为使用 知识 告诉 Castrel 哪些行为是预期内的(例如备份窗口)

常见问题