知识库是 Castrel 的运维知识管理系统,用结构化形式保存你团队的运维经验、排障指南和系统文档。这些知识会被 Castrel AI 自动检索和引用,帮助它更准确地理解你的系统环境,并给出更可靠的诊断与建议。
与传统文档不同,知识库采用 Trigger(触发条件) 机制,在正确的时机激活正确的知识。例如,当 AI 正在分析某个服务的告警时,绑定到该服务的知识会自动进入上下文。
知识类型
Castrel 支持两类知识:
| 类型 | 说明 | 使用场景 |
|---|---|---|
| Simple | 纯文本内容 | 简短配置说明、注意事项、速查信息 |
| Document | Markdown 格式文档 | 详细架构文档、排障指南、最佳实践手册 |
触发条件
触发条件决定 AI 会在什么时候引用这条知识。选择合适的触发方式,才能让知识在最相关的场景里生效:
| 触发器 | 说明 | 示例 |
|---|---|---|
| Always | 始终生效,在所有对话中可用 | 全公司统一的运维规范、通用安全准则 |
| Application | 绑定到某个应用 | 支付应用的部署流程 |
| Service | 绑定到某个服务 | 订单服务架构文档 |
| Infrastructure | 绑定到某个基础设施 | MySQL 主库配置说明 |
| Connector | 绑定到某个数据连接器 | Prometheus 查询技巧 |
| Alert | 根据告警内容匹配 | “OOMKilled” 排障 runbook |
手动创建
在 Castrel 控制台中进入 Context > Knowledges,点击 Create Knowledge:
payment-gateway-architecture)从对话中创建
当 Castrel AI 在排障过程中生成有价值的分析报告时,你可以一键把它保存为知识:
这种方式特别适合沉淀排障经验,把团队处理过的事故转化为可复用的知识资产。
从资源详情页创建
在 Application、Service、Infrastructure 和 Connector 的详情页中,你会看到 Related Knowledge 标签:
配置得当后,知识会在以下场景自动生效:
告警分析
用户:分析 mysql-prod-01 的高延迟告警
AI:我已检索到与 mysql-prod-01 相关的知识文档……
根据《数据库高延迟分析报告》,类似问题通常由以下原因引起:
1. 缺失索引导致全表扫描
2. 慢查询积压
3. 连接池配置错误
我现在开始进一步调查……
事故调查
在排查事故时,AI 会自动引用:
问答查询
用户:我们支付服务的超时阈值是多少?
AI:根据《支付网关架构》文档,
支付服务的超时配置如下:
- 默认超时:30s
- 重试次数:3
- 并发上限:1000 req/s
| 建议 | 好做法 | 差做法 |
|---|---|---|
| 精确绑定 | 将知识绑定到具体服务或基础设施 | 把所有知识都设为 Always |
| 结构化内容 | 使用 Markdown 标题、列表和代码块 | 一整块没有格式的大段文本 |
| 保持更新 | 系统变更后及时更新知识 | 知识内容与实际配置脱节 |
| 使用标签 | 添加 env=production、type=troubleshooting 等标签 | 完全不分类 |
| 精确的告警匹配 | 使用 “OOMKilled”“Connection refused” 这类具体关键词 | 使用过于宽泛的匹配词 |
非常适合:
不适合: