On-call 告警真假判定:20 分钟 → 2 分钟收到

📅 2026/6/28 20:51:30
On-call 告警真假判定:20 分钟 → 2 分钟收到
夜莺 v9 里你不用再爬起来翻一圈。直接在通知卡片或事件详情页打开 Copilot问一句这条告警是真的吗AI 会替你把一个老 SRE 该看的证据全看一遍心跳层—— Redis 心跳时间、延迟了多少秒指标层—— CPU、内存、网络的趋势数据邻居层—— 同业务组里其他机器是什么状态屏蔽层—— 现在是不是在维护窗口里。然后给你一个有依据的结论而不是一句空泛的可能有问题。原来要二十分钟的判断现在两分钟就能出结果。二、告警事件分析看懂这条告警到底在说什么确认是真告警之后下一个问题是它具体在说什么、该怎么看。在事件详情页直接问 AI它会帮你把这条告警事件的来龙去脉讲清楚解析告警规则的定义PromQL、阈值、持续时间到底卡的是哪一条、拉出涉及指标的历史趋势、看看同时段还有没有相关告警一起冒出来、对照主机的 CPU / IO / 网络数据。最后给你的不是一堆原始数据而是一段读得懂的事件解读 一条证据链 下一步该看哪里的建议。新人碰到一条陌生告警不再发懵老手也省去了反复翻规则、翻指标的功夫。三、新业务监控体系搭建一句话 → 一条规则搭监控这件事繁琐但不难最适合交给 AI。你只需要用大白话描述需求比如给所有生产环境label envprod的主机加一条 CPU 使用率 90% 的二级告警。AI 会自动完成选定业务组和标签筛选条件 → 生成对应的 PromQL → 配好阈值、时间窗、告警级别 → 关联通知规则 → 直接把规则创建出来。原来要一两个小时一项项点的活现在十五分钟就能搞定。四、日常零碎运维把 30 分钟的小事压成 3 分钟运维日常里有大量不难但烦的小任务最消耗精力。这些 AI 都能接改通知模板—— 给告警卡片加上业务组字段临时屏蔽—— 屏蔽 hostweb01 的所有告警 2 小时一句话生成屏蔽规则接入新通知平台—— 给出完整的 Webhook 配置连签名、headers 这些坑都帮你避开排查发送失败—— 解释错误码给一份排查 checklist查事件、查资源—— 最近 1 小时的一级告警有哪些。每一项原来要 3 到 30 分钟现在基本三分钟以内就能搞定。五、写自己的 Skill把团队的打法装进 AI这是夜莺 v9 AI 里我个人最看重的一块。团队最值钱的资产是资深 SRE 脑子里的排障方法论。但这些经验过去只能靠口口相传、靠拉人、靠新人慢慢踩坑攒出来。夜莺 v9 引入了Skill的概念来解决它资深 SRE 用 Markdown 把自己的排障套路写成一个 Skill上传到夜莺。当 AI 遇到匹配的场景时会自动加载这个 Skill按既定方法论一步步引导新人。也就是说新人遇到问题问 AI得到的不是泛泛的 GPT 式回答而是你们团队自己的那套打法。新人从入职到能独立值班周期能从 2-4 周缩短到 1-2 周。更省心的是夜莺 v9 二进制里内置了 19 个开箱即用的 Skill覆盖一线 SRE 日常 90% 的动作不写一行也能直接用。它们分成五大类分类Skill干什么部署接入categraf-deploy-guide直接给出 categraf 二进制 / Docker / Windows / K8s 的安装与上报配置创建配置自然语言转配置n9e-create-alert-rule支持 Prometheus、Loki、ES、ClickHouse、MySQL、PG 等十余种数据源建告警规则n9e-create-alert-mute屏蔽 hostweb01 2 小时式的屏蔽规则n9e-create-alert-subscribe按条件筛选并转发告警事件n9e-create-notify-rule级别 / 时段 / 通道 / 接收人都明确时的线性建规则n9e-create-dashboard给标题、类型、PromQL生成完整仪表盘配置n9e-modify-task-tpl生成 / 修改自愈脚本磁盘清理、重启服务、reload nginx 等通知 Copilot三层分工n9e-notify-channel-copilot钉钉 / 飞书 / 企微 / 邮件 / 短信 / Webhook 的接入配置与发送排障n9e-generate-message-template用 Go template 生成各平台专版的消息模板n9e-notify-rule-copilot复杂的分级路由P1 工作时间钉钉电话非工作时间仅电话查询只看数据不改配置n9e-query-alert-events查活跃 / 历史告警、看详情、做统计n9e-query-datasource查询十余种数据源promql-generator自然语言 → PromQLsql-generator自然语言 → SQLMySQL / Doris / ClickHouse / PG排障诊断从现象查问题ops-troubleshooting最宽口径的综合排查入口多步骤定位问题n9e-alert-rule-troubleshoot为什么该报的告警没报出来n9e-host-health-diagnose主机失联综合判断是真宕机、agent 假死、网络抖动还是在维护n9e-host-onboard-diagnose新装 categraf 接入不进来的诊断n9e-recommend-self-heal告警半自愈推荐这些内置 Skill 的作者显示为system开箱即用、不可在 Web 端改动——但它们只是起点。重头戏写出贴合你自己场景的 Skill内置的 19 个 Skill 解决的是人人都会遇到的通用动作。而一个团队真正的硬核经验往往藏在那些只有你们才有的场景里自研中间件出问题该看哪几个指标、按什么顺序排查大促期间的巡检套路和扩容判断标准MySQL 主从延迟告警在你们这套架构下的标准处理流程某次历史故障踩过的坑、事后定下来的应对预案。这些东西没有任何通用大模型能凭空知道却恰恰是最该沉淀下来的。在夜莺 v9 里把它变成一个 AI 会用的 Skill只要三步用 Markdown 写—— 像写一篇排障 wiki 一样讲清楚什么场景、按什么步骤、看什么数据、调用哪个工具写好触发描述—— AI 靠用户提问 Skill 描述来匹配关键词写清楚命中时就自动加载上传立即生效—— 之后任何人在这个场景问 AI拿到的都是你们团队自己的打法而不是泛泛而谈的通用回答。而且这套机制对用户足够友好你写的优先和内置 Skill 同名时以你的为准想改默认行为随时能覆盖兼容 Anthropic Agent Skills 规范支持导入导出团队之间、社区之间可以直接共享 Skill越用越厚每复盘一次故障、每总结一套新套路就多沉淀一个 Skill —— 团队经验从人走茶凉变成留在系统里持续复利。一句话内置能力决定了夜莺的下限而你能写出多少贴合自己场景的 Skill决定了它的上限。处处可达AI 嵌在你已经在用的地方夜莺 v9 没有把 AI 关进一个单独的对话框而是把它嵌到了你日常操作的每一个入口入口能力右上角 Nightingale AI 图标全站对话自动识别场景告警事件详情页触发原因、误报判定通知模板编辑器「AI 生成」按钮自然语言写模板PromQL 输入框AI 生成查询语句SQL / 日志查询框AI 生成 SQL / LogQL / ES DSL安全边界能放心交给它的前提AI 能干这么多事前提是它守规矩。夜莺 v9 给 AI 立了几条边界前三条是写进架构、绕不过去的硬约束