功能

知识库

构建并管理团队的运维知识库。

什么是知识库?

知识库是 Castrel 的运维知识管理系统,用结构化形式保存你团队的运维经验、排障指南和系统文档。这些知识会被 Castrel AI 自动检索和引用,帮助它更准确地理解你的系统环境,并给出更可靠的诊断与建议。

与传统文档不同,知识库采用 Trigger(触发条件) 机制,在正确的时机激活正确的知识。例如,当 AI 正在分析某个服务的告警时,绑定到该服务的知识会自动进入上下文。

工作方式

知识类型

Castrel 支持两类知识:

类型说明使用场景
Simple纯文本内容简短配置说明、注意事项、速查信息
DocumentMarkdown 格式文档详细架构文档、排障指南、最佳实践手册

触发条件

触发条件决定 AI 会在什么时候引用这条知识。选择合适的触发方式,才能让知识在最相关的场景里生效:

触发器说明示例
Always始终生效,在所有对话中可用全公司统一的运维规范、通用安全准则
Application绑定到某个应用支付应用的部署流程
Service绑定到某个服务订单服务架构文档
Infrastructure绑定到某个基础设施MySQL 主库配置说明
Connector绑定到某个数据连接器Prometheus 查询技巧
Alert根据告警内容匹配“OOMKilled” 排障 runbook
最佳实践:为每个关键服务和基础设施组件都建立知识条目。这样 AI 在分析相关问题时会自动引用这些知识,从而给出更准确的诊断。

创建知识

手动创建

在 Castrel 控制台中进入 Context > Knowledges,点击 Create Knowledge

  1. 填写基础信息
    • Knowledge ID:唯一标识,建议使用有语义的名称(例如 payment-gateway-architecture
    • Name:知识名称
    • Type:选择 Simple 或 Document
    • Description:简要描述内容和用途
  2. 配置触发条件
    • 选择触发类型
    • 配置关联资源(Application、Service、Infrastructure 等)
  3. 编写内容
    • Simple 类型:直接输入纯文本
    • Document 类型:使用 Markdown 编辑器
  4. 添加标签(可选)
    • 使用键值标签组织知识
    • 方便后续筛选和检索

从对话中创建

当 Castrel AI 在排障过程中生成有价值的分析报告时,你可以一键把它保存为知识:

  1. AI 完成分析后,会出现 Save as Knowledge 按钮
  2. 点击后自动提取关键内容
  3. 确认并添加触发条件即可保存

这种方式特别适合沉淀排障经验,把团队处理过的事故转化为可复用的知识资产。

从资源详情页创建

在 Application、Service、Infrastructure 和 Connector 的详情页中,你会看到 Related Knowledge 标签:

  • 查看所有与当前资源相关的知识
  • 创建自动绑定到当前资源的新知识

知识如何发挥作用

配置得当后,知识会在以下场景自动生效:

告警分析

用户:分析 mysql-prod-01 的高延迟告警

AI:我已检索到与 mysql-prod-01 相关的知识文档……
    根据《数据库高延迟分析报告》,类似问题通常由以下原因引起:
    1. 缺失索引导致全表扫描
    2. 慢查询积压
    3. 连接池配置错误

    我现在开始进一步调查……

事故调查

在排查事故时,AI 会自动引用:

  • 绑定到受影响服务的知识
  • 绑定到相关基础设施的知识
  • 与告警模式匹配的知识
  • 始终生效的通用知识

问答查询

用户:我们支付服务的超时阈值是多少?

AI:根据《支付网关架构》文档,
    支付服务的超时配置如下:
    - 默认超时:30s
    - 重试次数:3
    - 并发上限:1000 req/s

提升效果的小建议

建议好做法差做法
精确绑定将知识绑定到具体服务或基础设施把所有知识都设为 Always
结构化内容使用 Markdown 标题、列表和代码块一整块没有格式的大段文本
保持更新系统变更后及时更新知识知识内容与实际配置脱节
使用标签添加 env=productiontype=troubleshooting 等标签完全不分类
精确的告警匹配使用 “OOMKilled”“Connection refused” 这类具体关键词使用过于宽泛的匹配词

什么时候适合用知识库

非常适合:

  • 服务架构和配置文档
  • 排障指南和 runbook
  • 系统最佳实践与运维规范
  • 告警响应指引
  • 常见问题(FAQ)
  • 变更历史和经验总结

不适合:

  • 需要实时更新的数据(这类信息应通过连接器获取)
  • 临时性的调试信息
  • 未经验证的猜测或推测

常见问题