AI能监控AI吗？New Relic首席战略官：新难题是模型会“胡说”

📅 2026/7/1 5:10:21

“我们收集的数据太多了多到你甚至不知道该问什么。”New Relic首席技术战略官Nic Benders日前在一档播客中对老搭档Lee Atchison抛出的这句话撕开了一个许多人不敢承认的现实那面人人都引以为傲的仪表盘大屏正在变成一堵只会刷数据的墙。Benders在New Relic干了十几年几乎亲历了整个现代软件运维的爬升。他梳理出的三阶段演进——插桩时代、数据平台时代、智能时代每一步都踩在运维人的痛点上。最早团队拼命给Ruby、Java、.NET、Python做代码插桩以为看得越多越安全。等到数据量大到处理不过来New Relic在2013至2014年紧急推出NRDB数据库让工程师可以“先收数据后提问”比如突然追问慢查询从哪儿来的如果把测试环境排除再看呢再按国家拆分会怎样这种交互式分析一度让运维人掌握了解释系统行为的主动权。十年后局面又翻了个个儿。数据体量涨到告警列表一拉不到底人反而变得被动。Benders描述了一个反直觉的场景一家电商团队为了安全把alert条目从40条加到了120条结果平均响应时间没有缩短反而拉长。工程师被训练出一种危险反应——“先等等看它会不会自己恢复”。噪音越大人越迟钝这几乎推翻了“告警越多越安全”的常识。Benders扔下一句重话可观测性系统的终极source of truth根本不是仪表盘上的CPU、内存、错误率而是业务本身到底还跑不跑得动。电商要盯成交社交产品盯互动没有哪个团队写软件是为了练运维。而当可观测性本身引入AI大模型之后新的麻烦来了。LLM能帮着从噪音里抓信号但那个信号本身可能就在“胡说”。Benders直言传统监控找的是系统崩溃模型出问题却往往是不声不响地开始编造——转账金额改一改客服话术夹带私货这些故障既不会触发404也不会把CPU拉到100%。要揪出这种“安静型故障”LLM必须和统计方法咬合在一起工作而不是靠人拍脑袋设阈值。连团队分工也在被AI撕开。Benders不认为技术进步会让人变闲“历史上没有哪次技术进步让人类真的减少工作量AI让每个人有能力产出更多结果就是更多产出而不是更少工作。”所以可观测性这件事他直接给它换了个名字understandability。没人想盯着屏幕看所有人要的都是瞬间理解。当模型开始静悄悄地“胡说”而系统资源一切正常运维的仪表盘还能抓出这种故障吗

新闻详情

相关阅读

2026国内主流统一身份管理软件TOP10排行榜

从机器人讲解员到屏幕端数字教师：我用魔珐星云验证教育场景的具身交互落地

51单片机数码管动态显示避坑指南：用定时器T0中断实现6位倒计时（附完整代码）

JMeter性能测试中UUID变量共享的4种高效方案与选型指南

HFSS实战：手把手教你调出一个2.45GHz的Wi-Fi微带天线（附FR4基板参数）

AndroidSDK：Docker 里的 Android 开发环境

系统打印服务未开启解决办法

Selenium自动化测试实战：穿透Shadow DOM的三种核心方法与Pytest集成

智能会议管理系统EasyDSS直播+点播+会议三合一，培训不用买三套系统，运维成本大压缩

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！