功能

告警分诊

使用 AI 洞察高效完成告警分诊与管理。

告警分诊是 Castrel 的核心能力之一，它改变了 SRE 团队处理告警的方式，减少告警疲劳，并让你能在现有工作流中直接基于数据做决策。

什么是告警分诊？

告警分诊是一套由 AI 驱动的告警分类与分析系统。它会自动评估来自监控工具（Prometheus、Grafana 等）的告警，并直接在 Slack 中给出智能分析结果。你不必再手动登录多个系统逐条排查告警，Castrel 会像你的智能“副驾”一样，在几秒钟内给出带上下文的分析。

告警分诊会自动把告警归为三类：

1. 触发告警分诊

告警分诊可以通过两种方式触发：

2. 接收报告

当告警触发后，Castrel 会自动分析并返回一份由三部分组成的报告：

3. 后续动作

根据分类结果采取合适动作。如果告警被确认为事故，你可以让 Castrel 发起事故调查来进一步做根因分析。

你也可以提供反馈（Helpful / Not Helpful），帮助 Castrel 持续提高分析准确度。

Castrel 会按照一套系统化流程分析每条告警：

1. 告警规则与历史分析

Castrel 首先会获取监控规则配置和历史告警数据，以判断：

2. 告警对象识别与可观测性检查

Castrel 会从告警消息和字段中提取告警对象（服务或基础设施），然后在相关集成已连接的前提下检查对应的可观测性数据。你也可以创建带有告警触发模式的知识，告诉 Castrel 应该如何调查特定类型的告警。

3. 异常与影响评估

基于可观测性数据，Castrel 会评估：

建议	说明
接入全部数据源	Castrel 能访问的数据越完整（指标、日志、链路），分类就越准确
持续提供反馈	通过反馈帮助 Castrel 改进。除非你显式授权，我们的团队无法访问你的反馈对话或相关告警
记录已知行为	使用知识告诉 Castrel 哪些行为是预期内的（例如备份窗口）

快速开始

几分钟内开始使用 Castrel。

事故调查

通过自动化根因分析与人机协作，更快完成事故调查。