功能

事故调查

通过自动化根因分析与人机协作,更快完成事故调查。

事故调查是 Castrel 的核心能力之一,它把 AI 分析与人的专业经验结合起来,帮助 SRE 团队快速识别根因。无论你是在手机上响应告警,还是在桌面前做深入排查,Castrel 都能为不同场景提供合适的工具。

什么是事故调查?

事故调查是一套由 AI 驱动的根因分析系统,帮助你定位线上问题的来源。当某条告警在 告警分诊 中被确认为事故后,Castrel 会自动扫描你的基础设施,例如 K8s 事件、Pod 日志、数据库指标等,以识别潜在根因,并可视化故障在系统中的传播路径。

与传统监控工具只能告诉你 出了什么问题 不同,事故调查会进一步告诉你 为什么会发生该从哪里查起,让你能更快地处理事故。

如何使用事故调查

1. 发起调查

你可以通过两种方式启动事故调查:

  • 从告警分诊进入:当某条告警被分类为 事故 后,点击 “Start Investigation” 开始根因分析
  • 手动触发:在 Castrel 界面中点击 “Start Investigation”,并配置:
    • 时间范围:当前(最近 1 小时)、最近告警时间,或自定义时间段
    • Application:选择受影响的应用或服务
    • 补充上下文(可选):粘贴告警内容、指定资源,或描述你观察到的症状

2. 查看分析报告

启动调查后,Castrel 会做一次全面扫描,并生成包含以下内容的分析报告:

  1. 假设列表:AI 生成的潜在根因,每个假设都附带支撑证据
  2. 传播拓扑:可视化展示故障如何在服务之间传播
  3. 证据摘要:包括日志、指标、代码变更、事件等关键数据点

3. 选择下一步

根据分析结果,你可以走三条路径:

场景动作说明
根因很明确Confirm & CloseAI 已找到证据充分的明确根因。你只需复核并确认,即可结束调查
仍需人工深挖Get Report下载一份上下文摘要,其中包含已排除的可能性和仍待确认的方向,便于继续手动排查
方向对了但还不够Provide Guidance利用你的领域知识,引导 AI 向某个方向继续深入

人机协同调查

事故调查不是让你被动接收 AI 结果,而是为 双向协作 设计的。你可以主动利用自己的领域知识,引导调查过程。

传播拓扑

传播拓扑会把故障在系统中的传播路径分为四层:

层级图标说明
根因🔴故障的源头
关键传播🟠故障传播过程中的关键节点
直接影响🟡被故障直接影响的服务
间接影响经由多跳传播后受到影响的边缘服务

你可以在拓扑中做这些操作:

  • 将某个节点标记为疑似根因,以便做更聚焦的分析
  • 查看传播路径,理解爆炸半径

假设列表

假设列表展示 AI 生成的潜在根因,你可以对它们进行管理:

动作说明
Add Hypothesis基于领域知识补充你的假设(例如“DBA 上周调整了索引”)
Verify Hypothesis让 AI 为某个假设收集更多证据
Confirm Hypothesis将该假设标记为已确认根因
Reject Hypothesis将该假设从候选范围中排除

每个假设都会附带支撑证据,包括日志、指标、代码 diff 或事件,你可以逐条查看。

通过聊天补充指导

你也可以直接用自然语言引导调查:

检查一下 order-service 最近的部署,尤其是事务逻辑相关的改动
重点看一下 3:15 左右的数据库锁问题

Castrel 会结合你的指导,把它的全局数据扫描能力聚焦到你指定的方向上。

Castrel 如何调查事故

Castrel 会按照一套系统化流程执行根因分析:

1. 数据采集

Castrel 会在指定时间范围内从已连接的数据源收集信息:

  • Kubernetes 事件和 Pod 日志
  • 应用指标和链路
  • 数据库性能数据
  • 部署与配置变更历史

2. 假设生成

基于收集到的数据,Castrel 会通过以下方式生成假设:

  • 识别指标异常(延迟激增、错误率上升等)
  • 将部署、配置更新等变更与事故发生时间做关联
  • 分析错误日志和堆栈信息
  • 识别资源饱和模式

3. 传播分析

Castrel 会建立传播模型:

  • 追踪服务依赖
  • 识别故障起点
  • 映射故障如何沿着架构传播

4. 证据汇总

对于每个假设,Castrel 会汇总支撑证据:

  • 带时间戳的相关日志
  • 展示异常的指标图表
  • 最近变更中的代码 diff
  • 与相似历史事故的关联

提升效果的小建议

建议说明
接入全部数据源指标、日志、链路和变更管理接得越完整,根因识别越准确
使用知识库知识 中记录预期行为和 runbook,帮助 Castrel 更好理解你的系统
提供业务上下文AI 擅长扫数据,你擅长业务背景,二者结合效果最好
查看全部证据在确认某个假设之前,先把支撑证据看完整

常见问题