AI能监控AI吗?New Relic首席战略官:新难题是模型会“胡说”

📅 2026/7/1 5:10:21
AI能监控AI吗?New Relic首席战略官:新难题是模型会“胡说”
“我们收集的数据太多了多到你甚至不知道该问什么。”New Relic首席技术战略官Nic Benders日前在一档播客中对老搭档Lee Atchison抛出的这句话撕开了一个许多人不敢承认的现实那面人人都引以为傲的仪表盘大屏正在变成一堵只会刷数据的墙。Benders在New Relic干了十几年几乎亲历了整个现代软件运维的爬升。他梳理出的三阶段演进——插桩时代、数据平台时代、智能时代每一步都踩在运维人的痛点上。最早团队拼命给Ruby、Java、.NET、Python做代码插桩以为看得越多越安全。等到数据量大到处理不过来New Relic在2013至2014年紧急推出NRDB数据库让工程师可以“先收数据后提问”比如突然追问慢查询从哪儿来的如果把测试环境排除再看呢再按国家拆分会怎样这种交互式分析一度让运维人掌握了解释系统行为的主动权。十年后局面又翻了个个儿。数据体量涨到告警列表一拉不到底人反而变得被动。Benders描述了一个反直觉的场景一家电商团队为了安全把alert条目从40条加到了120条结果平均响应时间没有缩短反而拉长。工程师被训练出一种危险反应——“先等等看它会不会自己恢复”。噪音越大人越迟钝这几乎推翻了“告警越多越安全”的常识。Benders扔下一句重话可观测性系统的终极source of truth根本不是仪表盘上的CPU、内存、错误率而是业务本身到底还跑不跑得动。电商要盯成交社交产品盯互动没有哪个团队写软件是为了练运维。而当可观测性本身引入AI大模型之后新的麻烦来了。LLM能帮着从噪音里抓信号但那个信号本身可能就在“胡说”。Benders直言传统监控找的是系统崩溃模型出问题却往往是不声不响地开始编造——转账金额改一改客服话术夹带私货这些故障既不会触发404也不会把CPU拉到100%。要揪出这种“安静型故障”LLM必须和统计方法咬合在一起工作而不是靠人拍脑袋设阈值。连团队分工也在被AI撕开。Benders不认为技术进步会让人变闲“历史上没有哪次技术进步让人类真的减少工作量AI让每个人有能力产出更多结果就是更多产出而不是更少工作。”所以可观测性这件事他直接给它换了个名字understandability。没人想盯着屏幕看所有人要的都是瞬间理解。当模型开始静悄悄地“胡说”而系统资源一切正常运维的仪表盘还能抓出这种故障吗